""" | |
1. jd_vocab_tokens的中文: | |
编码长度统计: Counter({2: 4190, 3: 1295, 1: 285}) | |
平均编码长度: 2.1750433275563257 | |
2. 中文标点 | |
编码长度统计: Counter({2: 55, 1: 23, 3: 3}) | |
平均编码长度: 1.7530864197530864 | |
3. 全中文(单字) unicode | |
编码长度统计: Counter({2: 13342, 3: 7257, 1: 302}) | |
平均编码长度: 2.3327591981244917 | |
4. 全中文() | |
中文汉字数:313, 中文标点数: 86 | |
""" | |