ocisd4
/

llama_tokenizer_ext_zhtw

Model card Files Files and versions Community

llama_tokenizer_ext_zhtw / README.md

JohnCheng's picture

Update README.md

a017e9a verified about 1 year ago

|

history blame contribute delete

586 Bytes

	```python
	from transformers import LlamaTokenizer

	tokenizer = LlamaTokenizer.from_pretrained(
	'ocisd4/llama_tokenizer_ext_zhtw',
	pad_token='<unk>',
	add_bos_token=True,
	add_eos_token=False
	)

	#vocab size: 36128

	print(tokenizer.tokenize('今天天氣真好！'))
	#['▁', '今', '天', '天', '氣', '真', '好', '！']

	print(tokenizer.encode('今天天氣真好！'))
	#[1, 29871, 31482, 30408, 30408, 32045, 30848, 31076, 30584]

	print(tokenizer.decode(tokenizer.encode('今天天氣真好！')))
	# <s>今天天氣真好！
	```