Upload tokenizer

Browse files

Files changed (3) hide show

special_tokens_map.json +16 -0
tokenizer.json +0 -0
tokenizer_config.json +122 -0

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+ "additional_special_tokens": [
+ ">>TITLE<<",
+ ">>ABSTRACT<<",
+ ">>INTRODUCTION<<",
+ ">>SUMMARY<<",
+ ">>COMMENT<<",
+ ">>ANSWER<<",
+ ">>QUESTION<<",
+ ">>DOMAIN<<",
+ ">>PREFIX<<",
+ ">>SUFFIX<<",
+ ">>MIDDLE<<"
+ ],
+ "eos_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,122 @@

+{
+ "add_prefix_space": false,
+ "added_tokens_decoder": {
+ "0": {
+ "content": ">>TITLE<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "1": {
+ "content": ">>ABSTRACT<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "2": {
+ "content": ">>INTRODUCTION<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "3": {
+ "content": ">>SUMMARY<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "4": {
+ "content": ">>COMMENT<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "5": {
+ "content": ">>ANSWER<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "6": {
+ "content": ">>QUESTION<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "7": {
+ "content": ">>DOMAIN<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "8": {
+ "content": ">>PREFIX<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "9": {
+ "content": ">>SUFFIX<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "10": {
+ "content": ">>MIDDLE<<",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ },
+ "11": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ }
+ },
+ "additional_special_tokens": [
+ ">>TITLE<<",
+ ">>ABSTRACT<<",
+ ">>INTRODUCTION<<",
+ ">>SUMMARY<<",
+ ">>COMMENT<<",
+ ">>ANSWER<<",
+ ">>QUESTION<<",
+ ">>DOMAIN<<",
+ ">>PREFIX<<",
+ ">>SUFFIX<<",
+ ">>MIDDLE<<"
+ ],
+ "clean_up_tokenization_spaces": true,
+ "eos_token": "<|endoftext|>",
+ "model_input_names": [
+ "input_ids",
+ "attention_mask"
+ ],
+ "model_max_length": 2048,
+ "tokenizer_class": "PreTrainedTokenizerFast"
+}