KoichiYasuoka
commited on
Commit
•
3104704
1
Parent(s):
0340e0b
model improved
Browse files- config.json +7 -33
- pytorch_model.bin +2 -2
- special_tokens_map.json +7 -1
- supar.model +2 -2
- tokenizer_config.json +57 -1
config.json
CHANGED
@@ -1198,8 +1198,7 @@
|
|
1198 |
"1184": "SYM",
|
1199 |
"1185": "VERB",
|
1200 |
"1186": "VERB+VERB",
|
1201 |
-
"1187": "X"
|
1202 |
-
"1188": "X+X"
|
1203 |
},
|
1204 |
"initializer_range": 0.02,
|
1205 |
"intermediate_size": 3072,
|
@@ -2391,8 +2390,7 @@
|
|
2391 |
"SYM": 1184,
|
2392 |
"VERB": 1185,
|
2393 |
"VERB+VERB": 1186,
|
2394 |
-
"X": 1187
|
2395 |
-
"X+X": 1188
|
2396 |
},
|
2397 |
"layer_norm_eps": 1e-05,
|
2398 |
"mask_token_id": 4,
|
@@ -2759,6 +2757,10 @@
|
|
2759 |
"\u0e40\u0e21\u0e37\u0e48\u0e2d",
|
2760 |
"\u0e21\u0e34\u0e25\u0e25\u0e34\u0e04\u0e31\u0e19"
|
2761 |
],
|
|
|
|
|
|
|
|
|
2762 |
"\u0e41\u0e01\u0e48\u0e19\u0e1e\u0e27\u0e23\u0e23\u0e13": [
|
2763 |
"\u0e41\u0e01\u0e48",
|
2764 |
"\u0e19\u0e1e\u0e27\u0e23\u0e23\u0e13"
|
@@ -10415,10 +10417,6 @@
|
|
10415 |
"\u0e41\u0e21\u0e49",
|
10416 |
"\u0e19\u0e32\u0e22"
|
10417 |
],
|
10418 |
-
"\u0e44\u0e14\u0e49\u0e41\u0e01\u0e48\u0e19\u0e32\u0e22": [
|
10419 |
-
"\u0e44\u0e14\u0e49\u0e41\u0e01\u0e48",
|
10420 |
-
"\u0e19\u0e32\u0e22"
|
10421 |
-
],
|
10422 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32\u0e19\u0e31\u0e01\u0e28\u0e36\u0e01\u0e29\u0e32": [
|
10423 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32",
|
10424 |
"\u0e19\u0e31\u0e01\u0e28\u0e36\u0e01\u0e29\u0e32"
|
@@ -10779,10 +10777,6 @@
|
|
10779 |
"\u0e41\u0e15\u0e48\u0e27\u0e48\u0e32",
|
10780 |
"\u0e19\u0e38\u0e49\u0e22"
|
10781 |
],
|
10782 |
-
"\u0e44\u0e14\u0e49\u0e41\u0e01\u0e48\u0e19\u0e01\u0e19\u0e32\u0e07\u0e19\u0e27\u0e25": [
|
10783 |
-
"\u0e44\u0e14\u0e49\u0e41\u0e01\u0e48",
|
10784 |
-
"\u0e19\u0e01\u0e19\u0e32\u0e07\u0e19\u0e27\u0e25"
|
10785 |
-
],
|
10786 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32\u0e22\u0e39\u0e40\u0e19\u0e2a\u0e42\u0e01": [
|
10787 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32",
|
10788 |
"\u0e22\u0e39\u0e40\u0e19\u0e2a\u0e42\u0e01"
|
@@ -36922,10 +36916,6 @@
|
|
36922 |
"\u0e2a\u0e38\u0e1e\u0e23\u0e23\u0e13\u0e0a\u0e19\u0e30\u0e1a\u0e38\u0e23\u0e35",
|
36923 |
"\u0e19\u0e32\u0e22\u0e01"
|
36924 |
],
|
36925 |
-
"\u0e2a\u0e38\u0e23\u0e2a\u0e31\u0e08\u0e08\u0e30": [
|
36926 |
-
"\u0e2a\u0e38\u0e23\u0e2a\u0e31\u0e08\u0e08",
|
36927 |
-
"\u0e30"
|
36928 |
-
],
|
36929 |
"\u0e2a\u0e38\u0e23\u0e32\u0e29\u0e0e\u0e23\u0e4c\u0e18\u0e32\u0e19\u0e35\u0e2d\u0e31\u0e19\u0e14\u0e31\u0e1a": [
|
36930 |
"\u0e2a\u0e38\u0e23\u0e32\u0e29\u0e0e\u0e23\u0e4c\u0e18\u0e32\u0e19\u0e35",
|
36931 |
"\u0e2d\u0e31\u0e19\u0e14\u0e31\u0e1a"
|
@@ -42037,10 +42027,6 @@
|
|
42037 |
"\u0e40\u0e2e\u0e0b\u0e1a\u0e2d\u0e25\u0e40\u0e25\u0e32\u0e30\u0e2b\u0e4c",
|
42038 |
"\u0e19\u0e31\u0e1a"
|
42039 |
],
|
42040 |
-
"\u0e40\u0e40\u0e1a\u0e07\u0e04\u0e4c\u0e2d\u0e32\u0e2a\u0e32": [
|
42041 |
-
"\u0e40\u0e40\u0e1a\u0e07\u0e04\u0e4c",
|
42042 |
-
"\u0e2d\u0e32\u0e2a\u0e32"
|
42043 |
-
],
|
42044 |
"\u0e41\u0e01\u0e49\u0e27\u0e2a\u0e23\u0e23\u0e0a\u0e35\u0e49": [
|
42045 |
"\u0e41\u0e01\u0e49\u0e27\u0e2a\u0e23\u0e23",
|
42046 |
"\u0e0a\u0e35\u0e49"
|
@@ -57708,10 +57694,6 @@
|
|
57708 |
"\u0e1b\u0e01\u0e15\u0e34",
|
57709 |
"\u0e23\u0e1f\u0e17."
|
57710 |
],
|
57711 |
-
"\u0e1b\u0e23\u0e30\u0e08\u0e33\u0e17\u0e32\u0e07": [
|
57712 |
-
"\u0e1b\u0e23\u0e30\u0e08",
|
57713 |
-
"\u0e33\u0e17\u0e32\u0e07"
|
57714 |
-
],
|
57715 |
"\u0e1e\u0e31\u0e12\u0e19\u0e32\u0e01\u0e27\u0e32\u0e07\u0e42\u0e08\u0e27": [
|
57716 |
"\u0e1e\u0e31\u0e12\u0e19\u0e32",
|
57717 |
"\u0e01\u0e27\u0e32\u0e07\u0e42\u0e08\u0e27"
|
@@ -59888,10 +59870,6 @@
|
|
59888 |
"\u0e23\u0e31\u0e01\u0e29\u0e32",
|
59889 |
"\u0e2a\u0e31\u0e07\u0e40\u0e01\u0e15"
|
59890 |
],
|
59891 |
-
"\u0e23\u0e31\u0e1a\u0e1c\u0e34\u0e14\u0e0a\u0e2d\u0e1a": [
|
59892 |
-
"\u0e23",
|
59893 |
-
"\u0e31\u0e1a\u0e1c\u0e34\u0e14\u0e0a\u0e2d\u0e1a"
|
59894 |
-
],
|
59895 |
"\u0e23\u0e34\u0e29\u0e22\u0e32\u0e19\u0e33\u0e1e\u0e32": [
|
59896 |
"\u0e23\u0e34\u0e29\u0e22\u0e32",
|
59897 |
"\u0e19\u0e33\u0e1e\u0e32"
|
@@ -61229,17 +61207,13 @@
|
|
61229 |
"\u0e41\u0e04\u0e0a\u0e0a\u0e48\u0e27\u0e25": [
|
61230 |
"\u0e41\u0e04\u0e0a",
|
61231 |
"\u0e0a\u0e48\u0e27\u0e25"
|
61232 |
-
],
|
61233 |
-
"\u0e42\u0e1b\u0e23": [
|
61234 |
-
"\u0e42",
|
61235 |
-
"\u0e1b\u0e23"
|
61236 |
]
|
61237 |
}
|
61238 |
}
|
61239 |
},
|
61240 |
"tokenizer_class": "BertTokenizerFast",
|
61241 |
"torch_dtype": "float32",
|
61242 |
-
"transformers_version": "4.
|
61243 |
"type_vocab_size": 1,
|
61244 |
"unk_token_id": 3,
|
61245 |
"use_cache": true,
|
|
|
1198 |
"1184": "SYM",
|
1199 |
"1185": "VERB",
|
1200 |
"1186": "VERB+VERB",
|
1201 |
+
"1187": "X"
|
|
|
1202 |
},
|
1203 |
"initializer_range": 0.02,
|
1204 |
"intermediate_size": 3072,
|
|
|
2390 |
"SYM": 1184,
|
2391 |
"VERB": 1185,
|
2392 |
"VERB+VERB": 1186,
|
2393 |
+
"X": 1187
|
|
|
2394 |
},
|
2395 |
"layer_norm_eps": 1e-05,
|
2396 |
"mask_token_id": 4,
|
|
|
2757 |
"\u0e40\u0e21\u0e37\u0e48\u0e2d",
|
2758 |
"\u0e21\u0e34\u0e25\u0e25\u0e34\u0e04\u0e31\u0e19"
|
2759 |
],
|
2760 |
+
"\u0e41\u0e01\u0e48\u0e19\u0e01\u0e19\u0e32\u0e07\u0e19\u0e27\u0e25": [
|
2761 |
+
"\u0e41\u0e01\u0e48",
|
2762 |
+
"\u0e19\u0e01\u0e19\u0e32\u0e07\u0e19\u0e27\u0e25"
|
2763 |
+
],
|
2764 |
"\u0e41\u0e01\u0e48\u0e19\u0e1e\u0e27\u0e23\u0e23\u0e13": [
|
2765 |
"\u0e41\u0e01\u0e48",
|
2766 |
"\u0e19\u0e1e\u0e27\u0e23\u0e23\u0e13"
|
|
|
10417 |
"\u0e41\u0e21\u0e49",
|
10418 |
"\u0e19\u0e32\u0e22"
|
10419 |
],
|
|
|
|
|
|
|
|
|
10420 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32\u0e19\u0e31\u0e01\u0e28\u0e36\u0e01\u0e29\u0e32": [
|
10421 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32",
|
10422 |
"\u0e19\u0e31\u0e01\u0e28\u0e36\u0e01\u0e29\u0e32"
|
|
|
10777 |
"\u0e41\u0e15\u0e48\u0e27\u0e48\u0e32",
|
10778 |
"\u0e19\u0e38\u0e49\u0e22"
|
10779 |
],
|
|
|
|
|
|
|
|
|
10780 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32\u0e22\u0e39\u0e40\u0e19\u0e2a\u0e42\u0e01": [
|
10781 |
"\u0e44\u0e21\u0e48\u0e27\u0e48\u0e32",
|
10782 |
"\u0e22\u0e39\u0e40\u0e19\u0e2a\u0e42\u0e01"
|
|
|
36916 |
"\u0e2a\u0e38\u0e1e\u0e23\u0e23\u0e13\u0e0a\u0e19\u0e30\u0e1a\u0e38\u0e23\u0e35",
|
36917 |
"\u0e19\u0e32\u0e22\u0e01"
|
36918 |
],
|
|
|
|
|
|
|
|
|
36919 |
"\u0e2a\u0e38\u0e23\u0e32\u0e29\u0e0e\u0e23\u0e4c\u0e18\u0e32\u0e19\u0e35\u0e2d\u0e31\u0e19\u0e14\u0e31\u0e1a": [
|
36920 |
"\u0e2a\u0e38\u0e23\u0e32\u0e29\u0e0e\u0e23\u0e4c\u0e18\u0e32\u0e19\u0e35",
|
36921 |
"\u0e2d\u0e31\u0e19\u0e14\u0e31\u0e1a"
|
|
|
42027 |
"\u0e40\u0e2e\u0e0b\u0e1a\u0e2d\u0e25\u0e40\u0e25\u0e32\u0e30\u0e2b\u0e4c",
|
42028 |
"\u0e19\u0e31\u0e1a"
|
42029 |
],
|
|
|
|
|
|
|
|
|
42030 |
"\u0e41\u0e01\u0e49\u0e27\u0e2a\u0e23\u0e23\u0e0a\u0e35\u0e49": [
|
42031 |
"\u0e41\u0e01\u0e49\u0e27\u0e2a\u0e23\u0e23",
|
42032 |
"\u0e0a\u0e35\u0e49"
|
|
|
57694 |
"\u0e1b\u0e01\u0e15\u0e34",
|
57695 |
"\u0e23\u0e1f\u0e17."
|
57696 |
],
|
|
|
|
|
|
|
|
|
57697 |
"\u0e1e\u0e31\u0e12\u0e19\u0e32\u0e01\u0e27\u0e32\u0e07\u0e42\u0e08\u0e27": [
|
57698 |
"\u0e1e\u0e31\u0e12\u0e19\u0e32",
|
57699 |
"\u0e01\u0e27\u0e32\u0e07\u0e42\u0e08\u0e27"
|
|
|
59870 |
"\u0e23\u0e31\u0e01\u0e29\u0e32",
|
59871 |
"\u0e2a\u0e31\u0e07\u0e40\u0e01\u0e15"
|
59872 |
],
|
|
|
|
|
|
|
|
|
59873 |
"\u0e23\u0e34\u0e29\u0e22\u0e32\u0e19\u0e33\u0e1e\u0e32": [
|
59874 |
"\u0e23\u0e34\u0e29\u0e22\u0e32",
|
59875 |
"\u0e19\u0e33\u0e1e\u0e32"
|
|
|
61207 |
"\u0e41\u0e04\u0e0a\u0e0a\u0e48\u0e27\u0e25": [
|
61208 |
"\u0e41\u0e04\u0e0a",
|
61209 |
"\u0e0a\u0e48\u0e27\u0e25"
|
|
|
|
|
|
|
|
|
61210 |
]
|
61211 |
}
|
61212 |
}
|
61213 |
},
|
61214 |
"tokenizer_class": "BertTokenizerFast",
|
61215 |
"torch_dtype": "float32",
|
61216 |
+
"transformers_version": "4.40.1",
|
61217 |
"type_vocab_size": 1,
|
61218 |
"unk_token_id": 3,
|
61219 |
"use_cache": true,
|
pytorch_model.bin
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:ef3caffbd115ba20be5aa8c8fb50610e00225b64391206516cf0062c041d1e11
|
3 |
+
size 396469030
|
special_tokens_map.json
CHANGED
@@ -1 +1,7 @@
|
|
1 |
-
{
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": "<s>",
|
3 |
+
"mask_token": "<mask>",
|
4 |
+
"pad_token": "<pad>",
|
5 |
+
"sep_token": "</s>",
|
6 |
+
"unk_token": "<unk>"
|
7 |
+
}
|
supar.model
CHANGED
@@ -1,3 +1,3 @@
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
-
oid sha256:
|
3 |
-
size
|
|
|
1 |
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:3c1f6c41b25da9faeda132d228792fb5e9471954ab440391a4283099c6e4dd66
|
3 |
+
size 442015286
|
tokenizer_config.json
CHANGED
@@ -1 +1,57 @@
|
|
1 |
-
{
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "<s>",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "<pad>",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "</s>",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "<unk>",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "<mask>",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"clean_up_tokenization_spaces": true,
|
45 |
+
"cls_token": "<s>",
|
46 |
+
"do_basic_tokenize": true,
|
47 |
+
"do_lower_case": false,
|
48 |
+
"mask_token": "<mask>",
|
49 |
+
"model_max_length": 416,
|
50 |
+
"never_split": null,
|
51 |
+
"pad_token": "<pad>",
|
52 |
+
"sep_token": "</s>",
|
53 |
+
"strip_accents": false,
|
54 |
+
"tokenize_chinese_chars": true,
|
55 |
+
"tokenizer_class": "BertTokenizerFast",
|
56 |
+
"unk_token": "<unk>"
|
57 |
+
}
|