vocab/README.md · xu-song/tokenizer-arena at 8ba122d0b63f908b61f95fbee3d889eccb67d7cc

词典构建

bert词典 gpt词典 gpt-neox词典

bert词典有个特殊字符 #

gpt-neox词典呢？

bert-chinese vocab_size: 21128 bert-en clue glm chatglm bloom

[PAD]
...
[unused99]
[UNK]
[CLS]
[SEP]
[MASK]
<S>
<T>
!
...

big
##ut
ftp
carol
##vi

"he@@", "llo", "n@@", "ew", "y@@", "or@@", "k"

跟BERT类似，只不过BERT是词后缀，这里是词前缀。

['What', "'s", 'Ġup', 'Ġwith', 'Ġthe', 'Ġtoken', 'izer', '?']

跟BERT不同，BERT用特殊符号表示 “连接”，GPT2用特殊符号表示 “空格”。

详见 gpt2/README.md

It's reversible and lossless, so you can convert tokens back into the original text