Update spaCy pipeline

Browse files

Files changed (16) hide show

.gitattributes +2 -0
README.md +59 -0
config.cfg +148 -0
meta.json +90 -0
ner/cfg +13 -0
ner/model +0 -0
ner/moves +1 -0
sr_ner_tesla_j125-any-py3-none-any.whl +3 -0
tokenizer +0 -0
transformer/cfg +3 -0
transformer/model +3 -0
vocab/key2row +1 -0
vocab/lookups.bin +3 -0
vocab/strings.json +0 -0
vocab/vectors +0 -0
vocab/vectors.cfg +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+sr_ner_tesla_j125-any-py3-none-any.whl filter=lfs diff=lfs merge=lfs -text
+transformer/model filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,59 @@

+---
+tags:
+- spacy
+- token-classification
+language:
+- sr
+license: cc-by-sa-3.0
+model-index:
+- name: sr_ner_tesla_j125
+  results:
+  - task:
+      name: NER
+      type: token-classification
+    metrics:
+    - name: NER Precision
+      type: precision
+      value: 0.9490420168
+    - name: NER Recall
+      type: recall
+      value: 0.9550128535
+    - name: NER F Score
+      type: f_score
+      value: 0.9520180733
+---
+sr_ner_tesla_j125 is a spaCy model meticulously fine-tuned for Named Entity Recognition in Serbian language texts. This advanced model incorporates a transformer layer based on XLM-R-BERTić, enhancing its analytical capabilities. It is proficient in identifying 7 distinct categories of entities: PERS (persons), ROLE (professions), DEMO (demonyms), ORG (organizations), LOC (locations), WORK (artworks), and EVENT (events). Detailed information about these categories is available in the accompanying table. The development of this model has been made possible through the support of the Science Fund of the Republic of Serbia, under grant #7276, for the project 'Text Embeddings - Serbian Language Applications - TESLA'.
+| Feature | Description |
+| --- | --- |
+| **Name** | `sr_ner_tesla_j125` |
+| **Version** | `1.0.0` |
+| **spaCy** | `>=3.7.2,<3.8.0` |
+| **Default Pipeline** | `transformer`, `ner` |
+| **Components** | `transformer`, `ner` |
+| **Vectors** | 0 keys, 0 unique vectors (0 dimensions) |
+| **Sources** | n/a |
+| **License** | `CC BY-SA 3.0` |
+| **Author** | [Milica Ikonić Nešić, Saša Petalinkar, Mihailo Škorić, Ranka Stanković](https://tesla.rgf.bg.ac.rs/) |
+### Label Scheme
+<details>
+<summary>View label scheme (7 labels for 1 components)</summary>
+| Component | Labels |
+| --- | --- |
+| **`ner`** | `DEMO`, `EVENT`, `LOC`, `ORG`, `PERS`, `ROLE`, `WORK` |
+</details>
+### Accuracy
+| Type | Score |
+| --- | --- |
+| `ENTS_F` | 95.20 |
+| `ENTS_P` | 94.90 |
+| `ENTS_R` | 95.50 |
+| `TRANSFORMER_LOSS` | 159576.78 |
+| `NER_LOSS` | 169201.76 |

config.cfg ADDED Viewed

	@@ -0,0 +1,148 @@

+[paths]
+train = "./train.spacy"
+dev = "./dev.spacy"
+vectors = null
+bert = "E:\\scratch2lm\\bert modeli\\jerteh-125"
+init_tok2vec = null
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+[nlp]
+lang = "sr"
+pipeline = ["transformer","ner"]
+batch_size = 128
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+vectors = {"@vectors":"spacy.Vectors.v1"}
+[components]
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+scorer = {"@scorers":"spacy.ner_scorer.v1"}
+update_with_oracle_cut_size = 100
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = false
+nO = null
+[components.ner.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+name = ${paths.bert}
+mixed_precision = false
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.grad_scaler_config]
+[components.transformer.model.tokenizer_config]
+use_fast = true
+[components.transformer.model.transformer_config]
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+before_to_disk = null
+before_update = null
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+get_length = null
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+[training.score_weights]
+ents_f = 1.0
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
+[pretraining]
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

meta.json ADDED Viewed

	@@ -0,0 +1,90 @@

+{
+  "lang":"sr",
+  "name":"ner_tesla_j125",
+  "version":"1.0.0",
+  "description":"sr_ner_tesla_j125 is a spaCy model meticulously fine-tuned for Named Entity Recognition in Serbian language texts. This advanced model incorporates a transformer layer based on XLM-R-BERTi\u0107, enhancing its analytical capabilities. It is proficient in identifying 7 distinct categories of entities: PERS (persons), ROLE (professions), DEMO (demonyms), ORG (organizations), LOC (locations), WORK (artworks), and EVENT (events). Detailed information about these categories is available in the accompanying table. The development of this model has been made possible through the support of the Science Fund of the Republic of Serbia, under grant #7276, for the project 'Text Embeddings - Serbian Language Applications - TESLA'.",
+  "author":"Milica Ikoni\u0107 Ne\u0161i\u0107, Sa\u0161a Petalinkar, Mihailo \u0160kori\u0107, Ranka Stankovi\u0107",
+  "email":"",
+  "url":"https://tesla.rgf.bg.ac.rs/",
+  "license":"CC BY-SA 3.0",
+  "spacy_version":">=3.7.2,<3.8.0",
+  "spacy_git_version":"a89eae928",
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null
+  },
+  "labels":{
+    "transformer":[
+    ],
+    "ner":[
+      "DEMO",
+      "EVENT",
+      "LOC",
+      "ORG",
+      "PERS",
+      "ROLE",
+      "WORK"
+    ]
+  },
+  "pipeline":[
+    "transformer",
+    "ner"
+  ],
+  "components":[
+    "transformer",
+    "ner"
+  ],
+  "disabled":[
+  ],
+  "performance":{
+    "ents_f":0.9520180733,
+    "ents_p":0.9490420168,
+    "ents_r":0.9550128535,
+    "ents_per_type":{
+      "ROLE":{
+        "p":0.8601667736,
+        "r":0.8804990151,
+        "f":0.8702141467
+      },
+      "PERS":{
+        "p":0.9840617607,
+        "r":0.988492808,
+        "f":0.9862723075
+      },
+      "LOC":{
+        "p":0.9579414838,
+        "r":0.9665260938,
+        "f":0.9622146418
+      },
+      "DEMO":{
+        "p":0.9058641975,
+        "r":0.9244094488,
+        "f":0.9150428683
+      },
+      "ORG":{
+        "p":0.773925104,
+        "r":0.762295082,
+        "f":0.7680660702
+      },
+      "WORK":{
+        "p":0.6724137931,
+        "r":0.5492957746,
+        "f":0.6046511628
+      },
+      "EVENT":{
+        "p":0.7333333333,
+        "r":0.6875,
+        "f":0.7096774194
+      }
+    },
+    "transformer_loss":1595.7678469561,
+    "ner_loss":1692.0175977019
+  },
+  "requirements":[
+    "spacy-transformers>=1.3.4,<1.4.0"
+  ]
+}

ner/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":1,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

ner/model ADDED Viewed

Binary file (245 kB). View file

ner/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves��{"0":{},"1":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546},"2":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546},"3":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546},"4":{"PERS":66081,"LOC":35152,"ROLE":14259,"ORG":10504,"DEMO":5087,"WORK":973,"EVENT":546,"":1},"5":{"":1}}�cfg��neg_key�

sr_ner_tesla_j125-any-py3-none-any.whl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83ca069717055fcb80436282022493a886ff34a160b6f601347ee787fb05e15a
+size 290393121

tokenizer ADDED Viewed

Binary file (32.6 kB). View file

transformer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "max_batch_items":4096
+}

transformer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5afa9d9580be6135cb7c9b1003467fc859eefb7fda8d1a948afe642ed0148b38
+size 328605096

vocab/key2row ADDED Viewed

	@@ -0,0 +1 @@


1	+ �

vocab/lookups.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

vocab/strings.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab/vectors ADDED Viewed

Binary file (128 Bytes). View file

vocab/vectors.cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "mode":"default"
+}