BUCOLIN
/

HistBERTurk-POS-tagging

Model card Files Files and versions Community

beratdogan commited on 9 days ago

Commit

743aed7

verified ·

1 Parent(s): 325f9c4

Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

checkpoint-epoch20.pth +3 -0
config.json +92 -0
info.log +0 -0
model_best.pth +3 -0
tokenizer/special_tokens_map.json +1 -0
tokenizer/tokenizer_config.json +1 -0
tokenizer/vocab.txt +0 -0
transformer.json +21 -0
upos.vocab +17 -0

checkpoint-epoch20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c26f63d1150aee969af014b0a10d2e7029fa492c5588682a5ccc606337245347
+size 1323131379

config.json ADDED Viewed

	@@ -0,0 +1,92 @@

+{
+    "experiment": "POS_Tagging",
+    "name": "ota_boun",
+    "n_gpu": 1,
+    "model": {
+        "type": "MultiParser",
+        "args": {
+            "embeddings_processor": {
+                "type": "BertWrapper",
+                "args": {
+                    "model_path": "data/pretrained_embeddings/bert-base-turkish-cased-nonpretrained",
+                    "fine_tune": true,
+                    "hidden_dropout": 0.2,
+                    "attn_dropout": 0.2,
+                    "output_dropout": 0.5,
+                    "scalar_mix_layer_dropout": 0.1,
+                    "token_mask_prob": 0.15
+                }
+            },
+            "outputs": {
+                "upos": {
+                    "type": "SequenceTagger",
+                    "args": {
+                        "hidden_size": 0,
+                        "input_dropout": 0.2,
+                        "vocab": {
+                            "type": "BasicVocab",
+                            "args": {
+                                "vocab_filename": "data/corpora/ota_boun/vocab/basic.vocab"
+                            }
+                        }
+                    }
+                }
+            }
+        }
+    },
+    "data_loaders": {
+        "type": "BucketedCONLLLoader",
+        "args": {
+            "annotation_layers": {
+                "upos": {
+                    "type": "TagSequence",
+                    "source_column": 3,
+                    "args": {
+                        "ignore_root": true
+                    }
+                }
+            },
+            "batch_size": 32,
+            "bucket_size": 512,
+            "max_tokens_per_batch": 156800,
+            "num_workers": 2
+        },
+        "paths": {
+            "train": "data/corpora/ota_boun/ota_boun-ud-train.conllu",
+            "dev": "data/corpora/ota_boun/tr_boun-ud-test.conllu"
+        }
+    },
+    "trainer": {
+        "min_epochs": 15,
+        "max_epochs": 300,
+        "early_stop": 15,
+        "save_dir": "data/saved_models/",
+        "save_period": 20,
+        "verbosity": 2,
+        "validation_criterion": {
+            "metrics": {
+                "upos": "fscore"
+            },
+            "weighting": "multiplicative"
+        },
+        "optimizer": {
+            "type": "AdamW",
+            "args": {
+                "lr": 4e-05,
+                "weight_decay": 0.0
+            }
+        },
+        "lr_scheduler": {
+            "type": "LambdaLR",
+            "args": {
+                "lr_lambda": "SqrtSchedule(400)"
+            }
+        },
+        "loss": {
+            "type": "CrossEntropyLoss",
+            "args": {
+                "ignore_index": -1
+            }
+        }
+    }
+}

info.log ADDED Viewed

The diff for this file is too large to render. See raw diff

model_best.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:014b3405d41cf7abc8e8f43a0b842743253b5cb7ae817d2433d987fe755f2764
+size 1323124523

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": false, "max_len": 512, "special_tokens_map_file": null, "full_tokenizer_file": null}

tokenizer/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

transformer.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.2,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_hidden_states": true,
+  "pad_token_id": 0,
+  "type_vocab_size": 2,
+  "vocab_size": 32000
+}

upos.vocab ADDED Viewed

	@@ -0,0 +1,17 @@

+ADJ
+ADP
+ADV
+AUX
+CCONJ
+DET
+INTJ
+NOUN
+NUM
+PART
+PRON
+PROPN
+PUNCT
+SCONJ
+VERB
+X
+_