Training in progress, step 500

Browse files

Files changed (9) hide show

.gitignore +1 -0
config.json +2 -2
pytorch_model.bin +2 -2
runs/Jan04_16-33-48_a1156351ca8d/1672850140.2152631/events.out.tfevents.1672850140.a1156351ca8d.23.1 +3 -0
runs/Jan04_16-33-48_a1156351ca8d/events.out.tfevents.1672850140.a1156351ca8d.23.0 +3 -0
special_tokens_map.json +51 -1
tokenizer.json +16 -28
tokenizer_config.json +64 -1
training_args.bin +3 -0

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ checkpoint-*/

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "checkpoint-13000",
   "architectures": [
     "RobertaForMaskedLM"
   ],
@@ -21,7 +21,7 @@
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
-  "transformers_version": "4.16.2",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 52000

 {
+  "_name_or_path": "Naveen-k/KanBERTo",
   "architectures": [
     "RobertaForMaskedLM"
   ],
   "pad_token_id": 1,
   "position_embedding_type": "absolute",
   "torch_dtype": "float32",
+  "transformers_version": "4.20.1",
   "type_vocab_size": 1,
   "use_cache": true,
   "vocab_size": 52000

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:497dff520215a153f9388a4efddd4a1ccb8eb21785c53aebd6b24f7bf5570e24
-size 334062635

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7c74feaac5bfb82ddd7c17a2f2ab3fc01131285b5b8ece62eb076d08a3cd866
+size 334056939

runs/Jan04_16-33-48_a1156351ca8d/1672850140.2152631/events.out.tfevents.1672850140.a1156351ca8d.23.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28baef5313dba3865295c823132fa43eb6f9f2198bd464081154cbcef7d7d6ca
+size 5309

runs/Jan04_16-33-48_a1156351ca8d/events.out.tfevents.1672850140.a1156351ca8d.23.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80ab2ca3e198be5e68406c50614d498296c9bc777dd8b096fa3a8337189a2f19
+size 3793

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,51 @@
1	- {"bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}}

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json CHANGED Viewed

@@ -1,73 +1,60 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 128,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
-  "padding": {
-    "strategy": {
-      "Fixed": 128
-    },
-    "direction": "Right",
-    "pad_to_multiple_of": null,
-    "pad_id": 1,
-    "pad_type_id": 0,
-    "pad_token": "<pad>"
-  },
   "added_tokens": [
     {
       "id": 0,
-      "special": true,
       "content": "<s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true
     },
     {
       "id": 1,
-      "special": true,
       "content": "<pad>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true
     },
     {
       "id": 2,
-      "special": true,
       "content": "</s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true
     },
     {
       "id": 3,
-      "special": true,
       "content": "<unk>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true
     },
     {
       "id": 4,
-      "special": true,
       "content": "<mask>",
       "single_word": false,
       "lstrip": true,
       "rstrip": false,
-      "normalized": true
     }
   ],
   "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": false,
-    "trim_offsets": true
   },
   "post_processor": {
     "type": "RobertaProcessing",
@@ -85,7 +72,8 @@
   "decoder": {
     "type": "ByteLevel",
     "add_prefix_space": true,
-    "trim_offsets": true
   },
   "model": {
     "type": "BPE",

 {
   "version": "1.0",
+  "truncation": null,
+  "padding": null,
   "added_tokens": [
     {
       "id": 0,
       "content": "<s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": true,
+      "special": true
     },
     {
       "id": 1,
       "content": "<pad>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": true,
+      "special": true
     },
     {
       "id": 2,
       "content": "</s>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": true,
+      "special": true
     },
     {
       "id": 3,
       "content": "<unk>",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": true,
+      "special": true
     },
     {
       "id": 4,
       "content": "<mask>",
       "single_word": false,
       "lstrip": true,
       "rstrip": false,
+      "normalized": true,
+      "special": true
     }
   ],
   "normalizer": null,
   "pre_tokenizer": {
     "type": "ByteLevel",
     "add_prefix_space": false,
+    "trim_offsets": true,
+    "use_regex": true
   },
   "post_processor": {
     "type": "RobertaProcessing",
   "decoder": {
     "type": "ByteLevel",
     "add_prefix_space": true,
+    "trim_offsets": true,
+    "use_regex": true
   },
   "model": {
     "type": "BPE",

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,64 @@
1	- {"unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "trim_offsets": true, "special_tokens_map_file": null, "name_or_path": "checkpoint-13000", "tokenizer_class": "RobertaTokenizer"}

+{
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "name_or_path": "Naveen-k/KanBERTo",
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "special_tokens_map_file": null,
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76f20e82c567565e0a829c061d9a899e49656ee75fc5ec37dc66e2da44dc7fd7
+size 3311