model changed

Files changed (5) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ pipeline_tag: "token-classification"
 ## Model Description
-This is a RoBERTa model pre-trained on Chinese Wikipedia texts (both simplified and traditional) for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [chinese-roberta-base-upos](https://huggingface.co/KoichiYasuoka/chinese-roberta-base-upos).
 ## How to Use
@@ -60,7 +60,7 @@ class UDgoeswith(object):
     return u+"\n"
 nlp=UDgoeswith("KoichiYasuoka/roberta-base-chinese-ud-goeswith")
-print(nlp("我叫萨拉，我住在伦敦。"))
 ```
 with [ufal.chu-liu-edmonds](https://pypi.org/project/ufal.chu-liu-edmonds/).
@@ -69,6 +69,6 @@ Or without ufal.chu-liu-edmonds:
 ```
 from transformers import pipeline
 nlp=pipeline("universal-dependencies","KoichiYasuoka/roberta-base-chinese-ud-goeswith",trust_remote_code=True,aggregation_strategy="simple")
-print(nlp("我叫萨拉，我住在伦敦。"))
 ```

 ## Model Description
+This is a RoBERTa model pre-trained on Chinese Wikipedia texts (both simplified and traditional) for POS-tagging and dependency-parsing (using `goeswith` for subwords), derived from [roberta_chinese_base](https://huggingface.co/clue/roberta_chinese_base).
 ## How to Use
     return u+"\n"
 nlp=UDgoeswith("KoichiYasuoka/roberta-base-chinese-ud-goeswith")
+print(nlp("我把这本书看完了"))
 ```
 with [ufal.chu-liu-edmonds](https://pypi.org/project/ufal.chu-liu-edmonds/).
 ```
 from transformers import pipeline
 nlp=pipeline("universal-dependencies","KoichiYasuoka/roberta-base-chinese-ud-goeswith",trust_remote_code=True,aggregation_strategy="simple")
+print(nlp("我把这本书看完了"))
 ```

config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "architectures": [
-    "BertForTokenClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "bos_token_id": 0,
@@ -12,8 +12,6 @@
   },
   "directionality": "bidi",
   "eos_token_id": 2,
-  "finetuning_task": "ner",
-  "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
@@ -631,10 +629,9 @@
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
-  "model_type": "bert",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
-  "output_past": true,
   "pad_token_id": 1,
   "pooler_fc_size": 768,
   "pooler_num_attention_heads": 12,

 {
   "architectures": [
+    "RobertaForTokenClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "bos_token_id": 0,
   },
   "directionality": "bidi",
   "eos_token_id": 2,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
+  "model_type": "roberta",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
   "pad_token_id": 1,
   "pooler_fc_size": 768,
   "pooler_num_attention_heads": 12,

maker.py CHANGED Viewed

@@ -1,5 +1,5 @@
 #! /usr/bin/python3
-src="KoichiYasuoka/chinese-roberta-base-upos"
 tgt="KoichiYasuoka/roberta-base-chinese-ud-goeswith"
 import os
 for d in ["UD_Chinese-GSD","UD_Chinese-GSDSimp"]:
@@ -39,15 +39,15 @@ class UDgoeswithDataset(object):
     return lid
   __len__=lambda self:len(self.ids)
   __getitem__=lambda self,i:{"input_ids":self.ids[i],"labels":[self.label2id[t] for t in self.tags[i]]}
-from transformers import AutoTokenizer,AutoConfig,AutoModelForTokenClassification,DataCollatorForTokenClassification,TrainingArguments,Trainer
-tkz=AutoTokenizer.from_pretrained(src)
 trainDS=UDgoeswithDataset("train.conllu",tkz)
 devDS=UDgoeswithDataset("dev.conllu",tkz)
 testDS=UDgoeswithDataset("test.conllu",tkz)
 lid=trainDS(devDS,testDS)
-cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()},ignore_mismatched_sizes=True)
 arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=32,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
-trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg,ignore_mismatched_sizes=True),train_dataset=trainDS,eval_dataset=devDS)
 trn.train()
 trn.save_model(tgt)
 tkz.save_pretrained(tgt)

 #! /usr/bin/python3
+src="clue/roberta_chinese_base"
 tgt="KoichiYasuoka/roberta-base-chinese-ud-goeswith"
 import os
 for d in ["UD_Chinese-GSD","UD_Chinese-GSDSimp"]:
     return lid
   __len__=lambda self:len(self.ids)
   __getitem__=lambda self,i:{"input_ids":self.ids[i],"labels":[self.label2id[t] for t in self.tags[i]]}
+from transformers import BertTokenizer,AutoConfig,AutoModelForTokenClassification,DataCollatorForTokenClassification,TrainingArguments,Trainer
+tkz=BertTokenizer.from_pretrained(src,model_max_length=512)
 trainDS=UDgoeswithDataset("train.conllu",tkz)
 devDS=UDgoeswithDataset("dev.conllu",tkz)
 testDS=UDgoeswithDataset("test.conllu",tkz)
 lid=trainDS(devDS,testDS)
+cfg=AutoConfig.from_pretrained(src,num_labels=len(lid),label2id=lid,id2label={i:l for l,i in lid.items()})
 arg=TrainingArguments(num_train_epochs=3,per_device_train_batch_size=32,output_dir="/tmp",overwrite_output_dir=True,save_total_limit=2,evaluation_strategy="epoch",learning_rate=5e-05,warmup_ratio=0.1)
+trn=Trainer(args=arg,data_collator=DataCollatorForTokenClassification(tkz),model=AutoModelForTokenClassification.from_pretrained(src,config=cfg),train_dataset=trainDS,eval_dataset=devDS)
 trn.train()
 trn.save_model(tgt)
 tkz.save_pretrained(tgt)

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:803211fef51e6bd23e68f211c1396d8975f16e2aea0ac0469a612fd83ccb38ba
-size 407710641

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfb7b516490a2a111a771d186112e9a33f9aa9c39c54514a0db029382159fd45
+size 407711217

tokenizer_config.json CHANGED Viewed

@@ -7,6 +7,7 @@
   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizerFast",

   "never_split": null,
   "pad_token": "[PAD]",
   "sep_token": "[SEP]",
+  "special_tokens_map_file": null,
   "strip_accents": null,
   "tokenize_chinese_chars": true,
   "tokenizer_class": "BertTokenizerFast",