versae
/

scandinavian-tokenizer

Model card Files Files and versions Community

scandinavian-tokenizer / train_tokenizer.py

versae

Scandi+English tokenizer on OSCAR

e5b62ac 10 months ago

raw

history blame contribute delete

5.97 kB

	import argparse
	import json
	import os
	import tempfile
	from pathlib import Path
	from tqdm import tqdm

	from datasets import load_dataset
	from tokenizers import SentencePieceBPETokenizer
	from transformers import LlamaTokenizerFast, TrainingArguments, AutoTokenizer

	def main(args):

	# Load the dataset from the huggingface Hub and prepare it for training
	if args.dataset_name is not None:
	if args.dataset_type:
	if os.path.isfile(args.dataset_name):
	data_files = [args.dataset_name]
	else:
	data_files = os.listdir(args.dataset_name)
	data_files = [Path(args.dataset_name) / f for f in data_files]
	print(f"Training on {len(data_files)} files")
	dataset = load_dataset(args.dataset_type,
	data_files=data_files,
	split=args.dataset_split,
	token=args.hub_token if args.hub_token else None
	)
	else:
	dataset = load_dataset(args.dataset_name,
	split=args.dataset_split,
	streaming=True,
	token=args.hub_token if args.hub_token else None
	)
	print(dataset)
	else:
	raise ValueError("No dataset name provided or dataset is already tokenized")

	# Remove non text columns
	dataset = dataset.remove_columns([col for col in dataset.column_names if col != "text"])

	# Randomize docs
	dataset = dataset.shuffle(seed=args.seed)

	# Select `num_samples` from the dataset
	if args.num_samples:
	dataset = dataset.select(range(args.num_samples))

	# Create a SentencePieceBPETokenizer
	tokenizer = SentencePieceBPETokenizer()

	# Train the SentencePieceBPETokenizer on the dataset
	tokenizer.train_from_iterator(
	iterator=dataset['text'],
	vocab_size=args.vocab_size,
	show_progress=True,
	special_tokens=["<unk>", "<s>", "</s>", "<pad>"],
	)

	# Save the tokenizer
	new_tokenizer_file = tempfile.NamedTemporaryFile(prefix='tokenizer_', suffix='.json').name
	tokenizer.save(new_tokenizer_file, pretty=True)

	# Load reference tokenizer
	if args.reference_tokenizer is not None and args.hub_token is not None:
	reference_tokenizer = AutoTokenizer.from_pretrained(args.reference_tokenizer, token=args.hub_token if args.hub_token else None)
	reference_tokenizer_path = tempfile.TemporaryDirectory().name
	reference_tokenizer.save_pretrained(reference_tokenizer_path)
	else:
	raise ValueError("No tokenizer name provided or no hub token provided. Try using `--reference_tokenizer 'mistralai/Mistral-7B-Instruct-v0.2'")

	# Read and dump the json file for the new tokenizer and the reference tokenizer
	with open(new_tokenizer_file) as f:
	new_tokenizer_json = json.load(f)

	with open(Path(reference_tokenizer_path) / "tokenizer.json") as f:
	reference_tokenizer_json = json.load(f)

	# Add the reference tokenizer's config to the new tokenizer's config
	new_tokenizer_json["normalizer"] = reference_tokenizer_json["normalizer"]
	new_tokenizer_json["pre_tokenizer"] = reference_tokenizer_json["pre_tokenizer"]
	new_tokenizer_json["post_processor"] = reference_tokenizer_json["post_processor"]
	new_tokenizer_json["decoder"] = reference_tokenizer_json["decoder"]
	new_tokenizer_json["model"]['fuse_unk'] = reference_tokenizer_json["model"]['fuse_unk']
	new_tokenizer_json["model"]['byte_fallback'] = reference_tokenizer_json["model"]['byte_fallback']

	# Dump the new tokenizer's config
	with open(new_tokenizer_file, "w") as f:
	json.dump(new_tokenizer_json, f, indent=2, ensure_ascii=False)

	# Load the new tokenizer as a LlamaTokenizerFast
	new_llama_tokenizer = LlamaTokenizerFast(
	tokenizer_file=new_tokenizer_file,
	name_or_path=args.reference_tokenizer + "-tokenizer",
	unk_token="<unk>",
	unk_token_id=0,
	bos_token="<s>",
	bos_token_id=1,
	eos_token="</s>",
	eos_token_id=2,
	pad_token="<pad>",
	pad_token_id=3,
	padding_side="right",
	)

	# Save the new tokenizer
	new_llama_tokenizer.save_pretrained(args.output)

	if __name__ == "__main__":
	parser = argparse.ArgumentParser(description="Train a new Llama tokenizer")
	parser.add_argument(
	"--dataset_name",
	type=str,
	default=None,
	help="The name of the dataset to be tokenized",
	)
	parser.add_argument(
	"--dataset_type",
	type=str,
	default=None,
	help="The type, 'text', 'json', or 'csv'. Leave blank for regular HF datasets",
	)
	parser.add_argument(
	"--dataset_split",
	type=str,
	default=None,
	help="The split of the dataset to be tokenized",
	)
	parser.add_argument(
	"--hub_token",
	type=str,
	default=None,
	help="The token to access the dataset on the hub",
	)
	parser.add_argument(
	"--reference_tokenizer",
	type=str,
	default=None,
	help="The name of the reference tokenizer to use",
	)
	parser.add_argument(
	"--seed",
	type=int,
	default=123,
	help="set random seed",
	)
	parser.add_argument(
	"--num_samples",
	type=int,
	default=None,
	help="Number of samples to use from the dataset",
	)
	parser.add_argument(
	"--vocab_size",
	type=int,
	default=None,
	help="Vocabulary size to use for the tokenizer",
	)
	parser.add_argument(
	"--output",
	type=str,
	default="./",
	help="Output path for the new tokenizer",
	)
	args = parser.parse_args()
	main(args)

	# How to run:
	# python train_tokenizer.py --dataset_name texts/all.txt --dataset_type text --dataset_split train --reference_tokenizer mistralai/Mistral-7B-Instruct-v0.2 --vocab_size 32768 --hub_token True