Upload 4 files

Files changed (4) hide show

tokenizer_2/merges.txt CHANGED Viewed

@@ -48892,4 +48892,4 @@ si gue</w>
 fun ko
 rend ous</w>
 ðŁĴ ĳ</w>
-jeky ll</w>

 fun ko
 rend ous</w>
 ðŁĴ ĳ</w>
+jeky ll</w>

tokenizer_2/special_tokens_map.json CHANGED Viewed

	@@ -1 +1,24 @@
1	- {"bos_token": {"content": "<\|startoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": "<\|endoftext\|>"}

+{
+ "bos_token": {
+ "content": "<|startoftext|>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ },
+ "eos_token": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ },
+ "pad_token": "!",
+ "unk_token": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false
+ }
+}

tokenizer_2/tokenizer_config.json CHANGED Viewed

@@ -1,34 +1,38 @@
 {
- "unk_token": {
- "content": "<|endoftext|>",
- "single_word": false,
- "lstrip": false,
- "rstrip": false,
- "normalized": true,
- "__type": "AddedToken"
  },
- "bos_token": {
- "content": "<|startoftext|>",
- "single_word": false,
- "lstrip": false,
- "rstrip": false,
- "normalized": true,
- "__type": "AddedToken"
  },
- "eos_token": {
- "content": "<|endoftext|>",
- "single_word": false,
- "lstrip": false,
- "rstrip": false,
- "normalized": true,
- "__type": "AddedToken"
- },
- "pad_token": "<|endoftext|>",
- "add_prefix_space": false,
- "errors": "replace",
- "do_lower_case": true,
- "name_or_path": "openai/clip-vit-base-patch32",
- "model_max_length": 77,
- "special_tokens_map_file": "./special_tokens_map.json",
- "tokenizer_class": "CLIPTokenizer"
-}

 {
+ "add_prefix_space": false,
+ "added_tokens_decoder": {
+ "0": {
+ "content": "!",
+ "lstrip": false,
+ "normalized": false,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
  },
+ "49406": {
+ "content": "<|startoftext|>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
  },
+ "49407": {
+ "content": "<|endoftext|>",
+ "lstrip": false,
+ "normalized": true,
+ "rstrip": false,
+ "single_word": false,
+ "special": true
+ }
+ },
+ "bos_token": "<|startoftext|>",
+ "clean_up_tokenization_spaces": true,
+ "do_lower_case": true,
+ "eos_token": "<|endoftext|>",
+ "errors": "replace",
+ "model_max_length": 77,
+ "pad_token": "!",
+ "tokenizer_class": "CLIPTokenizer",
+ "unk_token": "<|endoftext|>"
+}

tokenizer_2/vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff