model improved

Browse files

Files changed (4) hide show

config.json +144 -159
pytorch_model.bin +2 -2
supar.model +2 -2
tokenizer.json +0 -0

config.json CHANGED Viewed

@@ -27,26 +27,26 @@
     "15": "B-NOUN",
     "16": "B-NOUN+ADP",
     "17": "B-NOUN+ADP+NOUN",
-    "18": "B-NOUN+ADV",
-    "19": "B-NOUN+NOUN",
-    "20": "B-NOUN+VERB",
-    "21": "B-NUM",
-    "22": "B-NUM+NOUN",
-    "23": "B-PART",
-    "24": "B-PART+NOUN",
-    "25": "B-PART+VERB",
-    "26": "B-PRON",
-    "27": "B-PROPN",
-    "28": "B-PUNCT",
-    "29": "B-SCONJ",
-    "30": "B-SCONJ+ADV",
-    "31": "B-VERB",
-    "32": "B-VERB+AUX",
-    "33": "B-VERB+NOUN",
-    "34": "B-VERB+PART",
-    "35": "B-VERB+SCONJ",
-    "36": "B-VERT",
-    "37": "B-X",
     "38": "CCONJ",
     "39": "DET",
     "40": "DET+NOUN",
@@ -65,47 +65,45 @@
     "53": "I-NOUN",
     "54": "I-NOUN+ADP",
     "55": "I-NOUN+ADP+NOUN",
-    "56": "I-NOUN+ADV",
-    "57": "I-NOUN+NOUN",
-    "58": "I-NOUN+VERB",
-    "59": "I-NUM",
-    "60": "I-NUM+NOUN",
-    "61": "I-PART",
-    "62": "I-PART+NOUN",
-    "63": "I-PART+VERB",
-    "64": "I-PRON",
-    "65": "I-PROPN",
-    "66": "I-PUNCT",
-    "67": "I-SCONJ",
-    "68": "I-SCONJ+ADV",
-    "69": "I-VERB",
-    "70": "I-VERB+AUX",
-    "71": "I-VERB+NOUN",
-    "72": "I-VERB+PART",
-    "73": "I-VERB+SCONJ",
-    "74": "I-VERT",
-    "75": "I-X",
     "76": "INTJ",
     "77": "NOUN",
     "78": "NOUN+ADP",
     "79": "NOUN+NOUN",
     "80": "NOUN+VERB",
     "81": "NUM",
-    "82": "NUM+VERB+NOUN",
-    "83": "PART",
-    "84": "PART+NOUN",
-    "85": "PART+VERB",
-    "86": "PROPN",
-    "87": "PUNCT",
-    "88": "SCONJ",
-    "89": "SYM",
-    "90": "VERB",
-    "91": "VERB+AUX",
-    "92": "VERB+NOUN",
-    "93": "VERB+PART",
-    "94": "VERB+VERB",
-    "95": "VERT",
-    "96": "X"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
@@ -128,26 +126,26 @@
     "B-NOUN": 15,
     "B-NOUN+ADP": 16,
     "B-NOUN+ADP+NOUN": 17,
-    "B-NOUN+ADV": 18,
-    "B-NOUN+NOUN": 19,
-    "B-NOUN+VERB": 20,
-    "B-NUM": 21,
-    "B-NUM+NOUN": 22,
-    "B-PART": 23,
-    "B-PART+NOUN": 24,
-    "B-PART+VERB": 25,
-    "B-PRON": 26,
-    "B-PROPN": 27,
-    "B-PUNCT": 28,
-    "B-SCONJ": 29,
-    "B-SCONJ+ADV": 30,
-    "B-VERB": 31,
-    "B-VERB+AUX": 32,
-    "B-VERB+NOUN": 33,
-    "B-VERB+PART": 34,
-    "B-VERB+SCONJ": 35,
-    "B-VERT": 36,
-    "B-X": 37,
     "CCONJ": 38,
     "DET": 39,
     "DET+NOUN": 40,
@@ -166,47 +164,45 @@
     "I-NOUN": 53,
     "I-NOUN+ADP": 54,
     "I-NOUN+ADP+NOUN": 55,
-    "I-NOUN+ADV": 56,
-    "I-NOUN+NOUN": 57,
-    "I-NOUN+VERB": 58,
-    "I-NUM": 59,
-    "I-NUM+NOUN": 60,
-    "I-PART": 61,
-    "I-PART+NOUN": 62,
-    "I-PART+VERB": 63,
-    "I-PRON": 64,
-    "I-PROPN": 65,
-    "I-PUNCT": 66,
-    "I-SCONJ": 67,
-    "I-SCONJ+ADV": 68,
-    "I-VERB": 69,
-    "I-VERB+AUX": 70,
-    "I-VERB+NOUN": 71,
-    "I-VERB+PART": 72,
-    "I-VERB+SCONJ": 73,
-    "I-VERT": 74,
-    "I-X": 75,
     "INTJ": 76,
     "NOUN": 77,
     "NOUN+ADP": 78,
     "NOUN+NOUN": 79,
     "NOUN+VERB": 80,
     "NUM": 81,
-    "NUM+VERB+NOUN": 82,
-    "PART": 83,
-    "PART+NOUN": 84,
-    "PART+VERB": 85,
-    "PROPN": 86,
-    "PUNCT": 87,
-    "SCONJ": 88,
-    "SYM": 89,
-    "VERB": 90,
-    "VERB+AUX": 91,
-    "VERB+NOUN": 92,
-    "VERB+PART": 93,
-    "VERB+VERB": 94,
-    "VERT": 95,
-    "X": 96
   },
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
@@ -298,18 +294,22 @@
           "Oro",
           "wano"
         ],
-        "Pet-samaketa": [
-          "Pet-samake",
           "ta"
         ],
-        "Shoita": [
-          "Shoi",
           "ta"
         ],
         "Soita": [
           "Soi",
           "ta"
         ],
         "keseta": [
           "kese",
           "ta"
@@ -326,6 +326,10 @@
           "oro",
           "wano"
         ],
         "otta": [
           "ot",
           "ta"
@@ -334,10 +338,6 @@
           "samake",
           "ta"
         ],
-        "shoita": [
-          "shoi",
-          "ta"
-        ],
         "soyta": [
           "soy",
           "ta"
@@ -363,6 +363,13 @@
           "puray"
         ]
       },
       "NOUN+ADV": {
         "Tambeta ne": [
           "Tambe",
@@ -479,33 +486,19 @@
           "to"
         ]
       },
-      "NUM+VERB+NOUN": {
-        "Shineanto": [
-          "Shine",
-          "an",
-          "to"
-        ],
-        "sineanto": [
-          "sine",
-          "an",
-          "to"
         ]
       },
       "PART+NOUN": {
         "=anpe": [
           "=an",
           "pe"
-        ],
-        "shichorpok": [
-          "shi",
-          "chorpok"
         ]
       },
       "PART+VERB": {
-        "Chirushka": [
-          "Chi",
-          "rushka"
-        ],
         "ainu-wap": [
           "a",
           "inu-wap"
@@ -529,10 +522,6 @@
         "karapa": [
           "k",
           "arapa"
-        ],
-        "shiokote": [
-          "shi",
-          "okote"
         ]
       },
       "SCONJ+ADV": {
@@ -542,14 +531,6 @@
         ]
       },
       "VERB+AUX": {
-        "poppeta ashinnangoro": [
-          "poppeta ashin",
-          "nangoro"
-        ],
-        "poppetaasinnankor": [
-          "poppetaasin",
-          "nankor"
-        ],
         "sattek": [
           "sat",
           "tek"
@@ -568,13 +549,9 @@
           "an",
           "pe"
         ],
-        "ashbe": [
-          "ash",
-          "be"
-        ],
-        "aspe": [
-          "as",
-          "pe"
         ],
         "h\u00e9sep\u00e1ha": [
           "h\u00e9se",
@@ -584,9 +561,9 @@
           "kar",
           "i"
         ],
-        "ohasiri": [
-          "oha",
-          "siri"
         ],
         "wenpuri": [
           "wen",
@@ -598,9 +575,17 @@
           "kar",
           "i"
         ],
         "sapash": [
           "sap",
           "ash"
         ]
       },
       "VERB+SCONJ": {
@@ -629,5 +614,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.22.1",
   "type_vocab_size": 0,
-  "vocab_size": 5093
 }

     "15": "B-NOUN",
     "16": "B-NOUN+ADP",
     "17": "B-NOUN+ADP+NOUN",
+    "18": "B-NOUN+ADP+VERB",
+    "19": "B-NOUN+ADV",
+    "20": "B-NOUN+NOUN",
+    "21": "B-NOUN+VERB",
+    "22": "B-NUM",
+    "23": "B-NUM+NOUN",
+    "24": "B-PART",
+    "25": "B-PART+AUX",
+    "26": "B-PART+NOUN",
+    "27": "B-PART+VERB",
+    "28": "B-PRON",
+    "29": "B-PROPN",
+    "30": "B-PUNCT",
+    "31": "B-SCONJ",
+    "32": "B-SCONJ+ADV",
+    "33": "B-VERB",
+    "34": "B-VERB+NOUN",
+    "35": "B-VERB+PART",
+    "36": "B-VERB+SCONJ",
+    "37": "B-VERT",
     "38": "CCONJ",
     "39": "DET",
     "40": "DET+NOUN",
     "53": "I-NOUN",
     "54": "I-NOUN+ADP",
     "55": "I-NOUN+ADP+NOUN",
+    "56": "I-NOUN+ADP+VERB",
+    "57": "I-NOUN+ADV",
+    "58": "I-NOUN+NOUN",
+    "59": "I-NOUN+VERB",
+    "60": "I-NUM",
+    "61": "I-NUM+NOUN",
+    "62": "I-PART",
+    "63": "I-PART+AUX",
+    "64": "I-PART+NOUN",
+    "65": "I-PART+VERB",
+    "66": "I-PRON",
+    "67": "I-PROPN",
+    "68": "I-PUNCT",
+    "69": "I-SCONJ",
+    "70": "I-SCONJ+ADV",
+    "71": "I-VERB",
+    "72": "I-VERB+NOUN",
+    "73": "I-VERB+PART",
+    "74": "I-VERB+SCONJ",
+    "75": "I-VERT",
     "76": "INTJ",
     "77": "NOUN",
     "78": "NOUN+ADP",
     "79": "NOUN+NOUN",
     "80": "NOUN+VERB",
     "81": "NUM",
+    "82": "PART",
+    "83": "PART+VERB",
+    "84": "PROPN",
+    "85": "PUNCT",
+    "86": "SCONJ",
+    "87": "SYM",
+    "88": "VERB",
+    "89": "VERB+AUX",
+    "90": "VERB+NOUN",
+    "91": "VERB+PART",
+    "92": "VERB+VERB",
+    "93": "VERT",
+    "94": "X"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
     "B-NOUN": 15,
     "B-NOUN+ADP": 16,
     "B-NOUN+ADP+NOUN": 17,
+    "B-NOUN+ADP+VERB": 18,
+    "B-NOUN+ADV": 19,
+    "B-NOUN+NOUN": 20,
+    "B-NOUN+VERB": 21,
+    "B-NUM": 22,
+    "B-NUM+NOUN": 23,
+    "B-PART": 24,
+    "B-PART+AUX": 25,
+    "B-PART+NOUN": 26,
+    "B-PART+VERB": 27,
+    "B-PRON": 28,
+    "B-PROPN": 29,
+    "B-PUNCT": 30,
+    "B-SCONJ": 31,
+    "B-SCONJ+ADV": 32,
+    "B-VERB": 33,
+    "B-VERB+NOUN": 34,
+    "B-VERB+PART": 35,
+    "B-VERB+SCONJ": 36,
+    "B-VERT": 37,
     "CCONJ": 38,
     "DET": 39,
     "DET+NOUN": 40,
     "I-NOUN": 53,
     "I-NOUN+ADP": 54,
     "I-NOUN+ADP+NOUN": 55,
+    "I-NOUN+ADP+VERB": 56,
+    "I-NOUN+ADV": 57,
+    "I-NOUN+NOUN": 58,
+    "I-NOUN+VERB": 59,
+    "I-NUM": 60,
+    "I-NUM+NOUN": 61,
+    "I-PART": 62,
+    "I-PART+AUX": 63,
+    "I-PART+NOUN": 64,
+    "I-PART+VERB": 65,
+    "I-PRON": 66,
+    "I-PROPN": 67,
+    "I-PUNCT": 68,
+    "I-SCONJ": 69,
+    "I-SCONJ+ADV": 70,
+    "I-VERB": 71,
+    "I-VERB+NOUN": 72,
+    "I-VERB+PART": 73,
+    "I-VERB+SCONJ": 74,
+    "I-VERT": 75,
     "INTJ": 76,
     "NOUN": 77,
     "NOUN+ADP": 78,
     "NOUN+NOUN": 79,
     "NOUN+VERB": 80,
     "NUM": 81,
+    "PART": 82,
+    "PART+VERB": 83,
+    "PROPN": 84,
+    "PUNCT": 85,
+    "SCONJ": 86,
+    "SYM": 87,
+    "VERB": 88,
+    "VERB+AUX": 89,
+    "VERB+NOUN": 90,
+    "VERB+PART": 91,
+    "VERB+VERB": 92,
+    "VERT": 93,
+    "X": 94
   },
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
           "Oro",
           "wano"
         ],
+        "Oshmaketa": [
+          "Oshmake",
           "ta"
         ],
+        "Pet-samaketa": [
+          "Pet-samake",
           "ta"
         ],
         "Soita": [
           "Soi",
           "ta"
         ],
+        "cheppone": [
+          "cheppo",
+          "ne"
+        ],
         "keseta": [
           "kese",
           "ta"
           "oro",
           "wano"
         ],
+        "oshmaketa": [
+          "oshmake",
+          "ta"
+        ],
         "otta": [
           "ot",
           "ta"
           "samake",
           "ta"
         ],
         "soyta": [
           "soy",
           "ta"
           "puray"
         ]
       },
+      "NOUN+ADP+VERB": {
+        "soytaarpa": [
+          "soy",
+          "ta",
+          "arpa"
+        ]
+      },
       "NOUN+ADV": {
         "Tambeta ne": [
           "Tambe",
           "to"
         ]
       },
+      "PART+AUX": {
+        "chine": [
+          "chi",
+          "ne"
         ]
       },
       "PART+NOUN": {
         "=anpe": [
           "=an",
           "pe"
         ]
       },
       "PART+VERB": {
         "ainu-wap": [
           "a",
           "inu-wap"
         "karapa": [
           "k",
           "arapa"
         ]
       },
       "SCONJ+ADV": {
         ]
       },
       "VERB+AUX": {
         "sattek": [
           "sat",
           "tek"
           "an",
           "pe"
         ],
+        "anto": [
+          "an",
+          "to"
         ],
         "h\u00e9sep\u00e1ha": [
           "h\u00e9se",
           "kar",
           "i"
         ],
+        "ponchise": [
+          "pon",
+          "chise"
         ],
         "wenpuri": [
           "wen",
           "kar",
           "i"
         ],
+        "rokash": [
+          "rok",
+          "ash"
+        ],
         "sapash": [
           "sap",
           "ash"
+        ],
+        "shinotash": [
+          "shinot",
+          "ash"
         ]
       },
       "VERB+SCONJ": {
   "torch_dtype": "float32",
   "transformers_version": "4.22.1",
   "type_vocab_size": 0,
+  "vocab_size": 5092
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d16d2e33c010db9c1e11f8c3958ba24e6ebd0fff465cdceccb0133af4c5f21b9
-size 416098451

 version https://git-lfs.github.com/spec/v1
+oid sha256:130950825f157a277a247ff50be3c172941fa762e5f44a9a209b404021e9ac08
+size 416089171

supar.model CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12d7290b028466f77fd2c23367731a530dc9d0b146977511d94f39e3aae9a543
-size 461042443

 version https://git-lfs.github.com/spec/v1
+oid sha256:babbe8b36455e1b5441261b62b7bbc48da3082d0d0980788b0244bddc0f6a04b
+size 461045771

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff