Update README.md (#1)

Files changed (1) hide show

README.md CHANGED Viewed

@@ -16,11 +16,11 @@ class JiebaTokenizer(BertTokenizer):
         self.pre_tokenizer = pre_tokenizer
     def _tokenize(self, text, *arg, **kwargs):
         split_tokens = []
-        for text in self.pre_tokenizer(text):
-            if text in self.vocab:
-                split_tokens.append(text)
             else:
-                split_tokens.extend(super()._tokenize(text))
         return split_tokens
 model = BigBirdModel.from_pretrained('Lowin/chinese-bigbird-base-4096')
 tokenizer = JiebaTokenizer.from_pretrained('Lowin/chinese-bigbird-base-4096')

         self.pre_tokenizer = pre_tokenizer
     def _tokenize(self, text, *arg, **kwargs):
         split_tokens = []
+        for word in self.pre_tokenizer(text):
+            if word in self.vocab:
+                split_tokens.append(word)
             else:
+                split_tokens.extend(super()._tokenize(word))
         return split_tokens
 model = BigBirdModel.from_pretrained('Lowin/chinese-bigbird-base-4096')
 tokenizer = JiebaTokenizer.from_pretrained('Lowin/chinese-bigbird-base-4096')