Update spaCy pipeline

Browse files

Files changed (15) hide show

custom_factories.py +3 -2
en_grammar_checker-any-py3-none-any.whl +2 -2
meta.json +16 -16
training/config.cfg +167 -0
training/meta.json +99 -0
training/spancat/cfg +18 -0
training/spancat/model +3 -0
training/tokenizer +3 -0
training/transformer/cfg +3 -0
training/transformer/model +3 -0
training/vocab/key2row +1 -0
training/vocab/lookups.bin +3 -0
training/vocab/strings.json +3 -0
training/vocab/vectors +3 -0
training/vocab/vectors.cfg +3 -0

custom_factories.py CHANGED Viewed

@@ -7,9 +7,10 @@ from spacy.util import get_model_meta
 model_path = Path(__file__).parent
 meta = get_model_meta(model_path)
 data_dir = f"{meta['lang']}_{meta['name']}-{meta['version']}"
-components_path = model_path / data_dir
 @Language.component("errors")
 def errors(doc):
-    nlp_vocabulary = spacy.load(model_path)
     return nlp_vocabulary(doc)

 model_path = Path(__file__).parent
 meta = get_model_meta(model_path)
 data_dir = f"{meta['lang']}_{meta['name']}-{meta['version']}"
+components_path = model_path / data_dir / "training"
 @Language.component("errors")
 def errors(doc):
+    nlp_vocabulary = spacy.load(components_path)
+    print("Loaded component")
     return nlp_vocabulary(doc)

en_grammar_checker-any-py3-none-any.whl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81a6bbab4bd7f39da127d1290f4ca6c194acf88cb8687ef8e5e7eb198162d9ca
-size 27085

 version https://git-lfs.github.com/spec/v1
+oid sha256:483f6941367174edb71452d6c4f82fdf61aae1b35c3755a91e8cf4d58688cbcf
+size 406916683

meta.json CHANGED Viewed

@@ -8,20 +8,15 @@
   "url":"",
   "license":"CC BY-SA 3.0",
   "spacy_version":">=3.4.4,<3.5.0",
-  "parent_package":"spacy",
-  "requirements":[
-    "spacy-transformers>=1.0.0,<1.1.0"
-  ],
-  "sources":[
-    {
-      "license":"MIT"
-    }
-  ],
   "vectors":{
     "width":0,
     "vectors":0,
     "keys":0,
     "name":null
   },
   "pipeline":[
     "errors"
@@ -29,9 +24,18 @@
   "components":[
     "errors"
   ],
-  "labels":{
-  },
   "performance":{
     "spans_errors_p":0.7937892339,
     "spans_errors_r":0.4476503759,
@@ -94,9 +98,5 @@
       }
     }
   },
-  "speed":2779.5295317788,
-  "spacy_git_version":"61dfdd9fb",
-  "disabled":[
-  ]
 }

   "url":"",
   "license":"CC BY-SA 3.0",
   "spacy_version":">=3.4.4,<3.5.0",
+  "spacy_git_version":"61dfdd9fb",
   "vectors":{
     "width":0,
     "vectors":0,
     "keys":0,
     "name":null
+  },
+  "labels":{
   },
   "pipeline":[
     "errors"
   "components":[
     "errors"
   ],
+  "disabled":[
+  ],
+  "parent_package":"spacy",
+  "requirements":[
+    "spacy-transformers>=1.0.0,<1.1.0"
+  ],
+  "sources":[
+    {
+      "license":"MIT"
+    }
+  ],
   "performance":{
     "spans_errors_p":0.7937892339,
     "spans_errors_r":0.4476503759,
       }
     }
   },
+  "speed":2779.5295317788
 }

training/config.cfg ADDED Viewed

	@@ -0,0 +1,167 @@

+[paths]
+train = "./realec/train.spacy"
+dev = "./realec/dev.spacy"
+vectors = null
+init_tok2vec = null
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+[nlp]
+lang = "en"
+pipeline = ["transformer","spancat"]
+batch_size = 16
+disabled = []
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+tokenizer = {"@tokenizers":"spacy.Tokenizer.v1"}
+[components]
+[components.spancat]
+factory = "spancat"
+max_positive = null
+scorer = {"@scorers":"spacy.spancat_scorer.v1"}
+spans_key = "errors"
+threshold = 0.5
+[components.spancat.model]
+@architectures = "spacy.SpanCategorizer.v1"
+[components.spancat.model.reducer]
+@layers = "spacy.mean_max_reducer.v1"
+hidden_size = 128
+[components.spancat.model.scorer]
+@layers = "spacy.LinearLogistic.v1"
+nO = null
+nI = null
+[components.spancat.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+pooling = {"@layers":"reduce_mean.v1"}
+upstream = "*"
+[components.spancat.suggester]
+@misc = "spacy.ngram_suggester.v1"
+sizes = [1,2,3]
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+name = "bert-base-cased"
+mixed_precision = false
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.grad_scaler_config]
+[components.transformer.model.tokenizer_config]
+use_fast = true
+[components.transformer.model.transformer_config]
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = "./realec/dev.spacy"
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = "./realec/train.spacy"
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = 0
+gpu_allocator = "pytorch"
+dropout = 0.1
+patience = 1600
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+annotating_components = []
+before_to_disk = null
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+get_length = null
+[training.logger]
+@loggers = "spacy.WandbLogger.v3"
+project_name = "my-awesome-project"
+remove_config_values = ["paths.train","paths.dev","corpora.train.path","corpora.dev.path"]
+log_dataset_dir = null
+entity = null
+run_name = "grammar-checker"
+model_log_interval = null
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+[training.score_weights]
+spans_sc_f = 0.5
+spans_sc_p = 0.0
+spans_sc_r = 0.0
+spans_Agreement_errors_f = 0.06
+spans_Articles_f = 0.03
+spans_Capitalisation_f = 0.05
+spans_Formational_affixes_f = 0.1
+spans_Noun_number_f = 0.04
+spans_Numerals_f = 0.06
+spans_Prepositions_f = 0.05
+spans_Punctuation_f = 0.03
+spans_Spelling_f = 0.02
+spans_Tense_choice_f = 0.03
+spans_lex_item_choice_f = 0.03
+[pretraining]
+[initialize]
+vectors = null
+init_tok2vec = null
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

training/meta.json ADDED Viewed

	@@ -0,0 +1,99 @@

+{
+  "lang":"en",
+  "name":"grammar_checker",
+  "version":"1.0.1",
+  "description":"Essay Grammar Checker",
+  "author":"Irina Proskurina",
+  "email":"",
+  "url":"",
+  "license":"CC BY-SA 3.0",
+  "spacy_version":">=3.4.4,<3.5.0",
+  "parent_package":"spacy",
+  "requirements":[
+    "spacy-transformers>=1.0.0,<1.1.0"
+  ],
+  "sources":[
+    {
+      "license":"MIT"
+    }
+  ],
+  "vectors":{
+    "width":0,
+    "vectors":0,
+    "keys":0,
+    "name":null
+  },
+  "pipeline":
+    "errors",
+  "components":"errors",
+  "labels":{
+  },
+  "performance":{
+    "spans_errors_p":0.7937892339,
+    "spans_errors_r":0.4476503759,
+    "spans_errors_f":0.5724644939,
+    "spans_errors_per_type":{
+    "Numerals":{
+      "p":0.7313328681,
+      "r":0.577092511,
+      "f":0.6451215759
+    },
+    "lex_item_choice":{
+      "p":0.7750791975,
+      "r":0.1950571353,
+      "f":0.3116772824
+    },
+    "Articles":{
+      "p":0.785046729,
+      "r":0.4552258065,
+      "f":0.5762822607
+    },
+    "Punctuation":{
+      "p":0.6955835962,
+      "r":0.2376077586,
+      "f":0.3542168675
+    },
+    "Prepositions":{
+      "p":0.8163471241,
+      "r":0.3766294227,
+      "f":0.5154507805
+    },
+    "Formational_affixes":{
+      "p":0.7269700333,
+      "r":0.6031307551,
+      "f":0.6592853548
+    },
+    "Agreement_errors":{
+      "p":0.7909018356,
+      "r":0.5164147994,
+      "f":0.6248423707
+    },
+    "Capitalisation":{
+      "p":0.8034148593,
+      "r":0.7899274047,
+      "f":0.7966140471
+    },
+    "Noun_number":{
+      "p":0.8251445087,
+      "r":0.5558079169,
+      "f":0.6642109345
+    },
+    "Tense_choice":{
+      "p":0.7827648115,
+      "r":0.5369458128,
+      "f":0.6369612856
+    },
+    "Spelling":{
+      "p":0.886746988,
+      "r":0.4357608052,
+      "f":0.5843588726
+    }
+  }
+  },
+  "speed":2779.5295317788,
+  "spacy_git_version":"61dfdd9fb",
+  "disabled":[
+  ]
+}

training/spancat/cfg ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "labels":[
+    "Numerals",
+    "lex_item_choice",
+    "Articles",
+    "Punctuation",
+    "Prepositions",
+    "Formational_affixes",
+    "Agreement_errors",
+    "Capitalisation",
+    "Noun_number",
+    "Tense_choice",
+    "Spelling"
+  ],
+  "spans_key":"errors",
+  "threshold":0.5,
+  "max_positive":null
+}

training/spancat/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0644468a3433a24fac0c4eff33e9a6626a1eabf81407b933c942d1d83f69e84d
+size 4728651

training/tokenizer ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24ad4ddf9a27837484c7fe2ae8a454167cfc9604ef2e7740a2e74a39cc2c1bc3
+size 76990

training/transformer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "max_batch_items":4096
+}

training/transformer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:295f882fecfc711a4d7a52b89365526b8fcf308a8c092f91da73a9bba8b80629
+size 434208063

training/vocab/key2row ADDED Viewed

	@@ -0,0 +1 @@


1	+ �

training/vocab/lookups.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

training/vocab/strings.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a64eed47943544dafc1dabe9d0f6c26399acf4d59c10d9cdd1c31ba85168f82
+size 176610

training/vocab/vectors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14772b683e726436d5948ad3fff2b43d036ef2ebbe3458aafed6004e05a40706
+size 128

training/vocab/vectors.cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "mode":"default"
+}