CustomBERT / const.py
huuminh365's picture
first upload
28ea347
LATEX_VOC = ['\\overrightarrow{\\rm AB}',
'\\overleftrightarrow',
'\\Longleftrightarrow',
'\\longleftrightarrow',
'\\supsetneqq\\gtrsim',
'\\scriptscriptstyle',
'\\rightleftharpoons',
'\\circlearrowright',
'\\overline{\\rm AB}',
'\\rightrightarrows',
'\\leftrightarrows',
'\\rightleftarrows',
'\\curvearrowright',
'\\circlearrowleft',
'\\bigtriangledown',
'\\leftleftarrows',
'\\longrightarrow',
'\\Leftrightarrow',
'\\Longrightarrow',
'\\curvearrowleft',
'\\hookrightarrow',
'\\rightharpoonup',
'\\leftrightarrow',
'\\overrightarrow',
'\\longleftarrow',
'\\bigtriangleup',
'\\overleftarrow',
'\\triangleright',
'\\operatorname*',
'\\hookleftarrow',
'\\varsubsetneqq',
'\\Longleftarrow',
'\\arraystretch',
'\\right\\rfloor',
'\\right\\rbrace',
'\\footnotesize',
'\\begin{array}',
'\\right\\rangle',
'\\displaystyle',
'\\operatorname',
'\\renewcommand',
'\\right\\rbrack',
'\\triangleleft',
'\\arraycolsep',
'\\updownarrow',
'\\diamondsuit',
'\\left\\lbrace',
'\\nolinebreak',
'\\scriptstyle',
'\\left\\lfloor',
'\\left\\langle',
'\\left\\lbrack',
'\\multicolumn',
'\\mathversion',
'\\not\\supset',
'\\complement',
'\\unitlength',
'\\thicklines',
'\\rightarrow',
'\\varnothing',
'\\right\\vert',
'\\sqsupseteq',
'\\supsetneqq',
'\\not\\subset',
'\\scriptsize',
'\\Rightarrow',
'\\boldsymbol',
'\\ensuremath',
'\\curlywedge',
'\\textnormal',
'\\normalsize',
'\\end{array}',
'\\sqsubseteq',
'\\varepsilon',
'\\setcounter',
'\\unboldmath',
'\\underbrace',
'\\circledast',
'\\longmapsto',
'\\nsubseteq',
'\\backslash',
'\\thinspace',
'\\smallskip',
'\\leftarrow',
'\\llbracket',
'\\Leftarrow',
'\\setlength',
'\\triangleq',
'\\arrowvert',
'\\subsetneq',
'\\supseteqq',
'\\mathbb{H}',
'\\varlimsup',
'\\left\\vert',
'\\downarrow',
'\\mathbb{S}',
'\\nparallel',
'\\widetilde',
'\\Downarrow',
'\\nsupseteq',
'\\overbrace',
'\\textstyle',
'\\varliminf',
'\\checkmark',
'\\supsetneq',
'\\bigotimes',
'\\pitchfork',
'\\mathbb{A}',
'\\underline',
'\\mathbb{O}',
'\\righarrow',
'\\hphantom',
'\\parallel',
'\\leqslant',
'\\underset',
'\\subseteq',
'\\bigsqcup',
'\\bigoplus',
'\\multiput',
'\\ulcorner',
'\\raisebox',
'\\bigwedge',
'\\emptyset',
'\\protectu',
'\\boxminus',
'\\buildrel',
'\\vartheta',
'\\overline',
'\\framebox',
'\\mathfrak',
'\\smallint',
'\\stackrel',
'\\sqsupset',
'\\llcorner',
'\\sqsubset',
'\\lrcorner',
'\\curlyvee',
'\\nonumber',
'\\substack',
'\\supseteq',
'\\varsigma',
'\\biguplus',
'\\triangle',
'\\setminus',
'\\vphantom',
'\\boldmath',
'\\geqslant',
'\\upsilon',
'\\diamond',
'\\epsilon',
'\\noalign',
'\\medskip',
'\\lessdot',
'\\bigcirc',
'\\protect',
'\\right\\|',
'\\boxplus',
'\\special',
'\\nearrow',
'\\right\\}',
'\\because',
'\\widehat',
'\\phantom',
'\\itshape',
'\\lessgtr',
'\\mathbin',
'\\lefteqn',
'\\backsim',
'\\makebox',
'\\mathscr',
'\\searrow',
'\\ooalign',
'\\Upsilon',
'\\natural',
'\\enspace',
'\\partial',
'\\uparrow',
'\\newline',
'\\ddagger',
'\\cooking',
'\\lesssim',
'\\nexists',
'\\bigodot',
'\\nwarrow',
'\\mathcal',
'\\mathrel',
'\\gtrless',
'\\vcenter',
'\\swarrow',
'\\fboxsep',
'\\omicron',
'\\leadsto',
'\\Subset',
'\\mathit',
'\\lambda',
'\\varphi',
'\\rbrace',
'\\textit',
'\\supset',
'\\textup',
'\\otimes',
'\\mathbf',
'\\right|',
'\\lbrace',
'\\forall',
'\\square',
'\\varrho',
'\\arctan',
'\\rtimes',
'\\right>',
'\\textrm',
'\\texttt',
'\\textsf',
'\\models',
'\\bigvee',
'\\langle',
'\\dagger',
'\\arccot',
'\\mapsto',
'\\succeq',
'\\lbrack',
'\\bullet',
'\\textbf',
'\\gtrsim',
'\\bigcap',
'\\nvdash',
'\\Lambda',
'\\arccos',
'\\lceilm',
'\\rgroup',
'\\coprod',
'\\ominus',
'\\approx',
'\\parbox',
'\\lfloor',
'\\bigcup',
'\\left\\{',
'\\oslash',
'\\enskip',
'\\ltimes',
'\\rangle',
'\\rfloor',
'\\propto',
'\\mathsf',
'\\lgroup',
'\\pounds',
'\\rbrack',
'\\mathrm',
'\\subset',
'\\left\\|',
'\\mathop',
'\\circle',
'\\right.',
'\\mathbb',
'\\exists',
'\\arcsin',
'\\prime',
'\\vline',
'\\cdots',
'\\varpi',
'\\notin',
'\\Theta',
'\\sqcup',
'\\left<',
'\\Gamma',
'\\theta',
'\\label',
'\\right',
'\\simeq',
'\\infty',
'\\mskip',
'\\Large',
'\\asymp',
'\\sharp',
'\\left.',
'\\dashv',
'\\lceil',
'\\omega',
'\\dddot',
'\\ldots',
'\\qquad',
'\\alpha',
'\\Biggm',
'\\check',
'\\smile',
'\\vDash',
'\\grave',
'\\nless',
'\\sqcap',
'\\delta',
'\\doteq',
'\\Omega',
'\\Biggl',
'\\mkern',
'\\Biggr',
'\\hline',
'\\LARGE',
'\\smash',
'\\small',
'\\aleph',
'\\equiv',
'\\tilde',
'\\space',
'\\rceil',
'\\raise',
'\\unlhd',
'\\binom',
'\\gamma',
'\\vskip',
'\\strut',
'\\biggl',
'\\colon',
'\\cdotp',
'\\amalg',
'\\kappa',
'\\hrule',
'\\jmath',
'\\lower',
'\\breve',
'\\sigma',
'\\vdash',
'\\wedge',
'\\large',
'\\nabla',
'\\hfill',
'\\Sigma',
'\\biggr',
'\\relax',
'\\Delta',
'\\begin',
'\\unrhd',
'\\acute',
'\\vdots',
'\\left|',
'\\oplus',
'\\slash',
'\\ddots',
'\\times',
'\\imath',
'\\angle',
'\\vrule',
'\\Huge',
'\\bmod',
'\\geqq',
'\\null',
'\\kern',
'\\nsim',
'\\nleq',
'\\Bigl',
'\\Perp',
'\\each',
'\\land',
'\\bigr',
'\\Vert',
'\\tanh',
'\\hfil',
'\\circ',
'\\prec',
'\\iota',
'\\odot',
'\\line',
'\\sent',
'\\prod',
'\\atop',
'\\iint',
'\\Reef',
'\\ngeq',
'\\cite',
'\\tiny',
'\\ddot',
'\\nmid',
'\\rlap',
'\\bigg',
'\\Bigm',
'\\flat',
'\\midf',
'\\cosh',
'\\llap',
'\\surd',
'\\perp',
'\\star',
'\\fbox',
'\\dots',
'\\vert',
'\\bigm',
'\\ddag',
'\\taxi',
'\\oint',
'\\frac',
'\\left',
'\\text',
'\\crcr',
'\\cong',
'\\zeta',
'\\ngtr',
'\\Bigg',
'\\pmod',
'\\skew',
'\\quad',
'\\Bigr',
'\\beta',
'\\leqq',
'\\hbar',
'\\bigl',
'\\sinh',
'\\sqrt',
'\\cdot',
'\\not',
'\\div',
'\\put',
'\\lll',
'\\tau',
'\\sum',
'\\lor',
'\\eta',
'\\min',
'\\rho',
'\\mid',
'\\neg',
'\\cao',
'\\end',
'\\vee',
'\\int',
'\\ref',
'\\geq',
'\\cap',
'\\hat',
'\\phi',
'\\mit',
'\\sin',
'\\cot',
'\\ggg',
'\\cos',
'\\mho',
'\\hss',
'\\Big',
'\\top',
'\\for',
'\\lim',
'\\eth',
'\\cal',
'\\dag',
'\\log',
'\\vss',
'\\arg',
'\\Phi',
'\\psi',
'\\dot',
'\\bar',
'\\leq',
'\\bot',
'\\ell',
'\\sec',
'\\tan',
'\\sim',
'\\Psi',
'\\dog',
'\\chi',
'\\big',
'\\cup',
'\\his',
'\\odd',
'\\ast',
'\\neq',
'\\max',
'\\vec',
'\\sup',
'\\le',
'\\bf',
'\\Em',
'\\lq',
'\\lg',
'\\sc',
'\\nu',
'\\ln',
'\\mp',
'\\Im',
'\\Pi',
'\\do',
'\\it',
'\\gt',
'\\wp',
'\\ll',
'\\ge',
'\\AA',
'\\tt',
'\\sp',
'\\ae',
'\\Xi',
'\\sf',
'\\mu',
'\\sb',
'\\ni',
'\\Re',
'\\rm',
'\\ss',
'\\pm',
'\\em',
'\\to',
'\\ne',
'\\in',
'\\tg',
'\\gg',
'\\xi',
'\\sl',
'\\pi',
'\\SS',
'\\%',
'\\S',
'\\A',
'\\P',
'\\_',
'\\:',
'\\;',
'\\*',
'\\$',
'\\>',
'\\x',
'\\/',
'\\+',
'\\}',
'\\B',
'\\&',
'\\R',
'\\l',
'\\L',
'\\|',
'\\,',
'\\{',
'\\n',
'\\m',
'\\=',
'\\z',
"\\'",
'\\!',
'\\<',
'\\Z',
'\\o',
'\\O',
'\\T',
'\\a',
'\\C',
'\\^',
'\\y',
'\\\\',
'\\i',
'\\c',
'\\#',
'\\-',
'\\N',
'\\b',
'\\j',
'\\d',
'\\Q',
']',
'^',
'_',
'\\']
TOKEN_LATEX_VOC = ['\\ o v e r r i g h t a r r o w { \\ r m A B }',
'\\ o v e r l e f t r i g h t a r r o w',
'\\ L o n g l e f t r i g h t a r r o w',
'\\ l o n g l e f t r i g h t a r r o w',
'\\ s u p s e t n e q q \\ g t r s i m',
'\\ s c r i p t s c r i p t s t y l e',
'\\ r i g h t l e f t h a r p o o n s',
'\\ c i r c l e a r r o w r i g h t',
'\\ o v e r l i n e { \\ r m A B }',
'\\ r i g h t r i g h t a r r o w s',
'\\ l e f t r i g h t a r r o w s',
'\\ r i g h t l e f t a r r o w s',
'\\ c u r v e a r r o w r i g h t',
'\\ c i r c l e a r r o w l e f t',
'\\ b i g t r i a n g l e d o w n',
'\\ l e f t l e f t a r r o w s',
'\\ l o n g r i g h t a r r o w',
'\\ L e f t r i g h t a r r o w',
'\\ L o n g r i g h t a r r o w',
'\\ c u r v e a r r o w l e f t',
'\\ h o o k r i g h t a r r o w',
'\\ r i g h t h a r p o o n u p',
'\\ l e f t r i g h t a r r o w',
'\\ o v e r r i g h t a r r o w',
'\\ l o n g l e f t a r r o w',
'\\ b i g t r i a n g l e u p',
'\\ o v e r l e f t a r r o w',
'\\ t r i a n g l e r i g h t',
'\\ o p e r a t o r n a m e *',
'\\ h o o k l e f t a r r o w',
'\\ v a r s u b s e t n e q q',
'\\ L o n g l e f t a r r o w',
'\\ a r r a y s t r e t c h',
'\\ r i g h t \\ r f l o o r',
'\\ r i g h t \\ r b r a c e',
'\\ f o o t n o t e s i z e',
'\\ b e g i n { a r r a y }',
'\\ r i g h t \\ r a n g l e',
'\\ d i s p l a y s t y l e',
'\\ o p e r a t o r n a m e',
'\\ r e n e w c o m m a n d',
'\\ r i g h t \\ r b r a c k',
'\\ t r i a n g l e l e f t',
'\\ a r r a y c o l s e p',
'\\ u p d o w n a r r o w',
'\\ d i a m o n d s u i t',
'\\ l e f t \\ l b r a c e',
'\\ n o l i n e b r e a k',
'\\ s c r i p t s t y l e',
'\\ l e f t \\ l f l o o r',
'\\ l e f t \\ l a n g l e',
'\\ l e f t \\ l b r a c k',
'\\ m u l t i c o l u m n',
'\\ m a t h v e r s i o n',
'\\ n o t \\ s u p s e t',
'\\ c o m p l e m e n t',
'\\ u n i t l e n g t h',
'\\ t h i c k l i n e s',
'\\ r i g h t a r r o w',
'\\ v a r n o t h i n g',
'\\ r i g h t \\ v e r t',
'\\ s q s u p s e t e q',
'\\ s u p s e t n e q q',
'\\ n o t \\ s u b s e t',
'\\ s c r i p t s i z e',
'\\ R i g h t a r r o w',
'\\ b o l d s y m b o l',
'\\ e n s u r e m a t h',
'\\ c u r l y w e d g e',
'\\ t e x t n o r m a l',
'\\ n o r m a l s i z e',
'\\ e n d { a r r a y }',
'\\ s q s u b s e t e q',
'\\ v a r e p s i l o n',
'\\ s e t c o u n t e r',
'\\ u n b o l d m a t h',
'\\ u n d e r b r a c e',
'\\ c i r c l e d a s t',
'\\ l o n g m a p s t o',
'\\ n s u b s e t e q',
'\\ b a c k s l a s h',
'\\ t h i n s p a c e',
'\\ s m a l l s k i p',
'\\ l e f t a r r o w',
'\\ l l b r a c k e t',
'\\ L e f t a r r o w',
'\\ s e t l e n g t h',
'\\ t r i a n g l e q',
'\\ a r r o w v e r t',
'\\ s u b s e t n e q',
'\\ s u p s e t e q q',
'\\ m a t h b b { H }',
'\\ v a r l i m s u p',
'\\ l e f t \\ v e r t',
'\\ d o w n a r r o w',
'\\ m a t h b b { S }',
'\\ n p a r a l l e l',
'\\ w i d e t i l d e',
'\\ D o w n a r r o w',
'\\ n s u p s e t e q',
'\\ o v e r b r a c e',
'\\ t e x t s t y l e',
'\\ v a r l i m i n f',
'\\ c h e c k m a r k',
'\\ s u p s e t n e q',
'\\ b i g o t i m e s',
'\\ p i t c h f o r k',
'\\ m a t h b b { A }',
'\\ u n d e r l i n e',
'\\ m a t h b b { O }',
'\\ r i g h a r r o w',
'\\ h p h a n t o m',
'\\ p a r a l l e l',
'\\ l e q s l a n t',
'\\ u n d e r s e t',
'\\ s u b s e t e q',
'\\ b i g s q c u p',
'\\ b i g o p l u s',
'\\ m u l t i p u t',
'\\ u l c o r n e r',
'\\ r a i s e b o x',
'\\ b i g w e d g e',
'\\ e m p t y s e t',
'\\ p r o t e c t u',
'\\ b o x m i n u s',
'\\ b u i l d r e l',
'\\ v a r t h e t a',
'\\ o v e r l i n e',
'\\ f r a m e b o x',
'\\ m a t h f r a k',
'\\ s m a l l i n t',
'\\ s t a c k r e l',
'\\ s q s u p s e t',
'\\ l l c o r n e r',
'\\ s q s u b s e t',
'\\ l r c o r n e r',
'\\ c u r l y v e e',
'\\ n o n u m b e r',
'\\ s u b s t a c k',
'\\ s u p s e t e q',
'\\ v a r s i g m a',
'\\ b i g u p l u s',
'\\ t r i a n g l e',
'\\ s e t m i n u s',
'\\ v p h a n t o m',
'\\ b o l d m a t h',
'\\ g e q s l a n t',
'\\ u p s i l o n',
'\\ d i a m o n d',
'\\ e p s i l o n',
'\\ n o a l i g n',
'\\ m e d s k i p',
'\\ l e s s d o t',
'\\ b i g c i r c',
'\\ p r o t e c t',
'\\ r i g h t \\ |',
'\\ b o x p l u s',
'\\ s p e c i a l',
'\\ n e a r r o w',
'\\ r i g h t \\ }',
'\\ b e c a u s e',
'\\ w i d e h a t',
'\\ p h a n t o m',
'\\ i t s h a p e',
'\\ l e s s g t r',
'\\ m a t h b i n',
'\\ l e f t e q n',
'\\ b a c k s i m',
'\\ m a k e b o x',
'\\ m a t h s c r',
'\\ s e a r r o w',
'\\ o o a l i g n',
'\\ U p s i l o n',
'\\ n a t u r a l',
'\\ e n s p a c e',
'\\ p a r t i a l',
'\\ u p a r r o w',
'\\ n e w l i n e',
'\\ d d a g g e r',
'\\ c o o k i n g',
'\\ l e s s s i m',
'\\ n e x i s t s',
'\\ b i g o d o t',
'\\ n w a r r o w',
'\\ m a t h c a l',
'\\ m a t h r e l',
'\\ g t r l e s s',
'\\ v c e n t e r',
'\\ s w a r r o w',
'\\ f b o x s e p',
'\\ o m i c r o n',
'\\ l e a d s t o',
'\\ S u b s e t',
'\\ m a t h i t',
'\\ l a m b d a',
'\\ v a r p h i',
'\\ r b r a c e',
'\\ t e x t i t',
'\\ s u p s e t',
'\\ t e x t u p',
'\\ o t i m e s',
'\\ m a t h b f',
'\\ r i g h t |',
'\\ l b r a c e',
'\\ f o r a l l',
'\\ s q u a r e',
'\\ v a r r h o',
'\\ a r c t a n',
'\\ r t i m e s',
'\\ r i g h t >',
'\\ t e x t r m',
'\\ t e x t t t',
'\\ t e x t s f',
'\\ m o d e l s',
'\\ b i g v e e',
'\\ l a n g l e',
'\\ d a g g e r',
'\\ a r c c o t',
'\\ m a p s t o',
'\\ s u c c e q',
'\\ l b r a c k',
'\\ b u l l e t',
'\\ t e x t b f',
'\\ g t r s i m',
'\\ b i g c a p',
'\\ n v d a s h',
'\\ L a m b d a',
'\\ a r c c o s',
'\\ l c e i l m',
'\\ r g r o u p',
'\\ c o p r o d',
'\\ o m i n u s',
'\\ a p p r o x',
'\\ p a r b o x',
'\\ l f l o o r',
'\\ b i g c u p',
'\\ l e f t \\ {',
'\\ o s l a s h',
'\\ e n s k i p',
'\\ l t i m e s',
'\\ r a n g l e',
'\\ r f l o o r',
'\\ p r o p t o',
'\\ m a t h s f',
'\\ l g r o u p',
'\\ p o u n d s',
'\\ r b r a c k',
'\\ m a t h r m',
'\\ s u b s e t',
'\\ l e f t \\ |',
'\\ m a t h o p',
'\\ c i r c l e',
'\\ r i g h t .',
'\\ m a t h b b',
'\\ e x i s t s',
'\\ a r c s i n',
'\\ p r i m e',
'\\ v l i n e',
'\\ c d o t s',
'\\ v a r p i',
'\\ n o t i n',
'\\ T h e t a',
'\\ s q c u p',
'\\ l e f t <',
'\\ G a m m a',
'\\ t h e t a',
'\\ l a b e l',
'\\ r i g h t',
'\\ s i m e q',
'\\ i n f t y',
'\\ m s k i p',
'\\ L a r g e',
'\\ a s y m p',
'\\ s h a r p',
'\\ l e f t .',
'\\ d a s h v',
'\\ l c e i l',
'\\ o m e g a',
'\\ d d d o t',
'\\ l d o t s',
'\\ q q u a d',
'\\ a l p h a',
'\\ B i g g m',
'\\ c h e c k',
'\\ s m i l e',
'\\ v D a s h',
'\\ g r a v e',
'\\ n l e s s',
'\\ s q c a p',
'\\ d e l t a',
'\\ d o t e q',
'\\ O m e g a',
'\\ B i g g l',
'\\ m k e r n',
'\\ B i g g r',
'\\ h l i n e',
'\\ L A R G E',
'\\ s m a s h',
'\\ s m a l l',
'\\ a l e p h',
'\\ e q u i v',
'\\ t i l d e',
'\\ s p a c e',
'\\ r c e i l',
'\\ r a i s e',
'\\ u n l h d',
'\\ b i n o m',
'\\ g a m m a',
'\\ v s k i p',
'\\ s t r u t',
'\\ b i g g l',
'\\ c o l o n',
'\\ c d o t p',
'\\ a m a l g',
'\\ k a p p a',
'\\ h r u l e',
'\\ j m a t h',
'\\ l o w e r',
'\\ b r e v e',
'\\ s i g m a',
'\\ v d a s h',
'\\ w e d g e',
'\\ l a r g e',
'\\ n a b l a',
'\\ h f i l l',
'\\ S i g m a',
'\\ b i g g r',
'\\ r e l a x',
'\\ D e l t a',
'\\ b e g i n',
'\\ u n r h d',
'\\ a c u t e',
'\\ v d o t s',
'\\ l e f t |',
'\\ o p l u s',
'\\ s l a s h',
'\\ d d o t s',
'\\ t i m e s',
'\\ i m a t h',
'\\ a n g l e',
'\\ v r u l e',
'\\ H u g e',
'\\ b m o d',
'\\ g e q q',
'\\ n u l l',
'\\ k e r n',
'\\ n s i m',
'\\ n l e q',
'\\ B i g l',
'\\ P e r p',
'\\ e a c h',
'\\ l a n d',
'\\ b i g r',
'\\ V e r t',
'\\ t a n h',
'\\ h f i l',
'\\ c i r c',
'\\ p r e c',
'\\ i o t a',
'\\ o d o t',
'\\ l i n e',
'\\ s e n t',
'\\ p r o d',
'\\ a t o p',
'\\ i i n t',
'\\ R e e f',
'\\ n g e q',
'\\ c i t e',
'\\ t i n y',
'\\ d d o t',
'\\ n m i d',
'\\ r l a p',
'\\ b i g g',
'\\ B i g m',
'\\ f l a t',
'\\ m i d f',
'\\ c o s h',
'\\ l l a p',
'\\ s u r d',
'\\ p e r p',
'\\ s t a r',
'\\ f b o x',
'\\ d o t s',
'\\ v e r t',
'\\ b i g m',
'\\ d d a g',
'\\ t a x i',
'\\ o i n t',
'\\ f r a c',
'\\ l e f t',
'\\ t e x t',
'\\ c r c r',
'\\ c o n g',
'\\ z e t a',
'\\ n g t r',
'\\ B i g g',
'\\ p m o d',
'\\ s k e w',
'\\ q u a d',
'\\ B i g r',
'\\ b e t a',
'\\ l e q q',
'\\ h b a r',
'\\ b i g l',
'\\ s i n h',
'\\ s q r t',
'\\ c d o t',
'\\ n o t',
'\\ d i v',
'\\ p u t',
'\\ l l l',
'\\ t a u',
'\\ s u m',
'\\ l o r',
'\\ e t a',
'\\ m i n',
'\\ r h o',
'\\ m i d',
'\\ n e g',
'\\ c a o',
'\\ e n d',
'\\ v e e',
'\\ i n t',
'\\ r e f',
'\\ g e q',
'\\ c a p',
'\\ h a t',
'\\ p h i',
'\\ m i t',
'\\ s i n',
'\\ c o t',
'\\ g g g',
'\\ c o s',
'\\ m h o',
'\\ h s s',
'\\ B i g',
'\\ t o p',
'\\ f o r',
'\\ l i m',
'\\ e t h',
'\\ c a l',
'\\ d a g',
'\\ l o g',
'\\ v s s',
'\\ a r g',
'\\ P h i',
'\\ p s i',
'\\ d o t',
'\\ b a r',
'\\ l e q',
'\\ b o t',
'\\ e l l',
'\\ s e c',
'\\ t a n',
'\\ s i m',
'\\ P s i',
'\\ d o g',
'\\ c h i',
'\\ b i g',
'\\ c u p',
'\\ h i s',
'\\ o d d',
'\\ a s t',
'\\ n e q',
'\\ m a x',
'\\ v e c',
'\\ s u p',
'\\ l e',
'\\ b f',
'\\ E m',
'\\ l q',
'\\ l g',
'\\ s c',
'\\ n u',
'\\ l n',
'\\ m p',
'\\ I m',
'\\ P i',
'\\ d o',
'\\ i t',
'\\ g t',
'\\ w p',
'\\ l l',
'\\ g e',
'\\ A A',
'\\ t t',
'\\ s p',
'\\ a e',
'\\ X i',
'\\ s f',
'\\ m u',
'\\ s b',
'\\ n i',
'\\ R e',
'\\ r m',
'\\ s s',
'\\ p m',
'\\ e m',
'\\ t o',
'\\ n e',
'\\ i n',
'\\ t g',
'\\ g g',
'\\ x i',
'\\ s l',
'\\ p i',
'\\ S S',
'\\ %',
'\\ S',
'\\ A',
'\\ P',
'\\ _',
'\\ :',
'\\ ;',
'\\ *',
'\\ $',
'\\ >',
'\\ x',
'\\ /',
'\\ +',
'\\ }',
'\\ B',
'\\ &',
'\\ R',
'\\ l',
'\\ L',
'\\ |',
'\\ ,',
'\\ {',
'\\ n',
'\\ m',
'\\ =',
'\\ z',
"\\ '",
'\\ !',
'\\ <',
'\\ Z',
'\\ o',
'\\ O',
'\\ T',
'\\ a',
'\\ C',
'\\ ^',
'\\ y',
'\\ \\',
'\\ i',
'\\ c',
'\\ #',
'\\ -',
'\\ N',
'\\ b',
'\\ j',
'\\ d',
'\\ Q',
']',
'^',
'_',
'\\']
NORMALIZE_WORD_DICT = {
"”": '\\"',
"’": "'",
"‘": "'",
"–": "-",
"“": '\\"',
"с": "c",
"а": "a",
"о": "o",
"Н": "H",
"у": "y",
"О": "0",
"М": "M",
"Α": "A",
"А": "A",
"Р": "P",
"Т": "T",
"р": "p",
"З": "3",
"х": "x",
"е": "e",
":": ":",
"Η": "H",
"(": "(",
"К": "K",
"Ү": "Y",
"б": "6",
"․": ".",
"В": "B",
"С": "C",
"Ρ": "P",
"і": "i",
"г": "r",
"Κ": "K",
"Х": "X",
"Ι": "I",
",": ",",
"Τ": "T",
"Ј": "J",
"У": "y",
"๐": "o",
"ı": "i",
"в": "B",
"Β": "B",
"һ": "h",
"ν": "v",
"Τ": "T",
"Е": "E",
"Ј": "J",
"Ι": "I",
"Ρ": "P",
"У": "y",
"І": "I",
"Ј": "J",
"Ι": "I",
"×": "x",
"†": "t",
"̃": "",
" ̣": "",
"`": "'",
# Latex
r"\\left[": r"[",
r"\\right]": r"]",
r"\\left\\{": r"\\{",
r"\\right\\}": r"\\}",
r"\\left|": "|",
r"\\right|": "|",
r"\\left(": r"(",
r"\\right)": r")",
r"\\left.": r"",
r"\\right.": r" ",
r"\\cdot": r".",
r"\\prime": r"'",
r"\\Delta": r"\\triangle",
r"\\circ": "o",
r"\\bigtriangleup": r"\\triangle",
r"\\left ": r" ",
r"\\right ": r" ",
r"\\le ": r"\\leq ",
r"\\ge ": r"\\geq ",
r"\\setminus": r"\\backslash",
r"$\\bullet$": r"",
r"\\therefore": r"",
r"\\otimes": r"",
r"\\rightarrowI": r"\\rightarrow",
r"\\overparen": r"\\widehat",
r"\\triangleABC": r"\\triangle ABC",
r"\\rightrightarrows": r"\\rightarrow",
r"\\top": r"'",
r"\\dagger": r"'",
r"\\bigoplus": r"Đ",
r"\\oplus": r"Đ",
r"\\doteq": r"=",
r"\\bigcap": r"\\cap",
r"\\I": r"I",
r"\\l ": r"I",
r"\\kappa": r"K",
# r"\n": "",
}
CHARACTER_SET = {
"$",
"\\",
" ",
"n",
"h",
"t",
"e",
"i",
"a",
"o",
"c",
".",
"s",
"r",
"g",
"u",
"l",
"m",
"d",
"y",
"p",
"đ",
"C",
"v",
"b",
"à",
"k",
"w",
"f",
"á",
"â",
"B",
"1",
"T",
"ư",
"A",
")",
",",
"D",
"Ð",
"(",
":",
"2",
"I",
"ệ",
"?",
"ế",
"ạ",
"ộ",
"3",
"ó",
"ủ",
"ì",
"ô",
"ả",
"ố",
"H",
"ể",
"ớ",
"ê",
"N",
"0",
"4",
"ề",
"í",
"x",
"5",
"ậ",
"ị",
"M",
"ờ",
"ấ",
"ơ",
"S",
"'",
"ợ",
"q",
"ọ",
"V",
"ứ",
"-",
"Đ",
"ú",
"ự",
"W",
"6",
"P",
"9",
"L",
"ầ",
"7",
"8",
"ã",
"E",
"Ẹ",
"ă",
'"',
"ụ",
"ữ",
"ồ",
"G",
"ở",
"K",
"ỉ",
"ò",
"ẳ",
"ắ",
"ừ",
"ù",
"ằ",
"R",
"O",
"ặ",
"Q",
"ổ",
"ĩ",
"X",
"ỏ",
"Y",
"ử",
"F",
"é",
"U",
"j",
"ý",
"/",
"ẽ",
"z",
"ỗ",
"J",
"ễ",
"ẩ",
"ũ",
"Á",
"ẹ",
"=",
"ẫ",
"ẻ",
"Ẻ",
";",
"!",
">",
"è",
"È",
"Ẽ",
"[",
"]",
"*",
"À",
"Â",
"Ẫ",
"+",
"õ",
"Õ",
"ỡ",
"Ậ",
"Ô",
"Ỗ",
"Ở",
"Ỡ",
"ỹ",
"Ỹ",
"^",
"ẵ",
"ỳ",
"Ă",
"Ẵ",
"|",
"Ệ",
"Ạ",
"Ư",
"Ố",
"Ý",
"Ọ",
"Ấ",
"ỷ",
"Ê",
"Ế",
"Ầ",
"Ề",
"Ự",
"Í",
"Ả",
"Ụ",
"Ộ",
"Z",
"Ơ",
"}",
"Ể",
"Ú",
"{",
"%",
"Ị",
"Ắ",
"_",
"Ủ",
"Ó",
"Ì",
"<",
"°",
"Ớ",
"å",
"̣",
"Ĩ",
"~",
"Ờ",
"Ợ",
"̉",
"Ỏ",
"•",
"Ữ",
"ā",
"&",
"Ứ",
"Ổ",
"Ã",
"Ồ",
"Ễ",
"Ử",
"Ẩ",
"#",
"Ù",
"Ò",
"É",
"ӑ",
"\n",
"Ặ",
"Ũ",
"Ỳ",
"Ừ",
"Ẳ",
"Ỷ",
"Ằ",
}