fix tokenizer loading to decode digits (#3)

- fix tokenizer loading to decode digits (ca2257f10f9916abb571823991a97dbfffcd35b6)

Co-authored-by: Makoto Shing <[email protected]>

Files changed (1) hide show

README.md CHANGED Viewed

@@ -42,7 +42,7 @@ Then start generating text with `japanese-stablelm-base-alpha-7b` by using the f
 import torch
 from transformers import LlamaTokenizer, AutoModelForCausalLM
-tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1")
 model = AutoModelForCausalLM.from_pretrained(
     "stabilityai/japanese-stablelm-base-alpha-7b",
@@ -76,7 +76,7 @@ tokens = model.generate(
     do_sample=True,
 )
-out = tokenizer.decode(tokens[0], skip_special_tokens=False)
 print(out)
 """
  AI で科学研究を加速するには、データ駆動型文化が必要であることも明らかになってきています。研究のあらゆる側面で、データがより重要になっているのです。

 import torch
 from transformers import LlamaTokenizer, AutoModelForCausalLM
+tokenizer = LlamaTokenizer.from_pretrained("novelai/nerdstash-tokenizer-v1", additional_special_tokens=['▁▁'])
 model = AutoModelForCausalLM.from_pretrained(
     "stabilityai/japanese-stablelm-base-alpha-7b",
     do_sample=True,
 )
+out = tokenizer.decode(tokens[0], skip_special_tokens=True)
 print(out)
 """
  AI で科学研究を加速するには、データ駆動型文化が必要であることも明らかになってきています。研究のあらゆる側面で、データがより重要になっているのです。