tokenizer.json里面没有中文字符
#2
by
rootsule
- opened
大佬,中文分词全是[UNK]啊
模型采用的是字节级别的词表,所以 tokenizer.json 里面不是明文的中文字符,但是确实是覆盖了中文字符的
可以提供一下你的测试代码
大佬,中文分词全是[UNK]啊
模型采用的是字节级别的词表,所以 tokenizer.json 里面不是明文的中文字符,但是确实是覆盖了中文字符的
可以提供一下你的测试代码