Upload 10 files

by Danube - opened Aug 30, 2024

base: refs/heads/main

←

from: refs/pr/3

Discussion Files changed

+32194

-0

Files changed (10) hide show

audio/ner/camember-ner/.gitattributes +18 -0
audio/ner/camember-ner/README.md +116 -0
audio/ner/camember-ner/config.json +41 -0
audio/ner/camember-ner/model.onnx +3 -0
audio/ner/camember-ner/model.safetensors +3 -0
audio/ner/camember-ner/pytorch_model.bin +3 -0
audio/ner/camember-ner/sentencepiece.bpe.model +3 -0
audio/ner/camember-ner/special_tokens_map.json +1 -0
audio/ner/camember-ner/tokenizer_config.json +1 -0
audio/ner/camember-ner/vocab.txt +0 -0

audio/ner/camember-ner/.gitattributes ADDED Viewed

	@@ -0,0 +1,18 @@

+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+model.safetensors filter=lfs diff=lfs merge=lfs -text

audio/ner/camember-ner/README.md ADDED Viewed

	@@ -0,0 +1,116 @@

+---
+language: fr
+datasets:
+- Jean-Baptiste/wikiner_fr
+widget:
+- text: "Je m'appelle jean-baptiste et je vis à montréal"
+- text: "george washington est allé à washington"
+license: mit
+---
+# camembert-ner: model fine-tuned from camemBERT for NER task.
+## Introduction
+[camembert-ner] is a NER model that was fine-tuned from camemBERT on wikiner-fr dataset.
+Model was trained on wikiner-fr dataset (~170 634  sentences).
+Model was validated on emails/chat data and overperformed other models on this type of data specifically.
+In particular the model seems to work better on entity that don't start with an upper case.
+## Training data
+Training data was classified as follow:
+Abbreviation|Description
+-|-
+O |Outside of a named entity
+MISC |Miscellaneous entity
+PER |Person’s name
+ORG |Organization
+LOC |Location
+## How to use camembert-ner with HuggingFace
+##### Load camembert-ner and its sub-word tokenizer :
+```python
+from transformers import AutoTokenizer, AutoModelForTokenClassification
+tokenizer = AutoTokenizer.from_pretrained("Jean-Baptiste/camembert-ner")
+model = AutoModelForTokenClassification.from_pretrained("Jean-Baptiste/camembert-ner")
+##### Process text sample (from wikipedia)
+from transformers import pipeline
+nlp = pipeline('ner', model=model, tokenizer=tokenizer, aggregation_strategy="simple")
+nlp("Apple est créée le 1er avril 1976 dans le garage de la maison d'enfance de Steve Jobs à Los Altos en Californie par Steve Jobs, Steve Wozniak et Ronald Wayne14, puis constituée sous forme de société le 3 janvier 1977 à l'origine sous le nom d'Apple Computer, mais pour ses 30 ans et pour refléter la diversification de ses produits, le mot « computer » est retiré le 9 janvier 2015.")
+[{'entity_group': 'ORG',
+  'score': 0.9472818374633789,
+  'word': 'Apple',
+  'start': 0,
+  'end': 5},
+ {'entity_group': 'PER',
+  'score': 0.9838564991950989,
+  'word': 'Steve Jobs',
+  'start': 74,
+  'end': 85},
+ {'entity_group': 'LOC',
+  'score': 0.9831605950991312,
+  'word': 'Los Altos',
+  'start': 87,
+  'end': 97},
+ {'entity_group': 'LOC',
+  'score': 0.9834540486335754,
+  'word': 'Californie',
+  'start': 100,
+  'end': 111},
+ {'entity_group': 'PER',
+  'score': 0.9841555754343668,
+  'word': 'Steve Jobs',
+  'start': 115,
+  'end': 126},
+ {'entity_group': 'PER',
+  'score': 0.9843501806259155,
+  'word': 'Steve Wozniak',
+  'start': 127,
+  'end': 141},
+ {'entity_group': 'PER',
+  'score': 0.9841533899307251,
+  'word': 'Ronald Wayne',
+  'start': 144,
+  'end': 157},
+ {'entity_group': 'ORG',
+  'score': 0.9468960364659628,
+  'word': 'Apple Computer',
+  'start': 243,
+  'end': 257}]
+```
+## Model performances (metric: seqeval)
+Overall
+precision|recall|f1
+-|-|-
+0.8859|0.8971|0.8914
+By entity
+entity|precision|recall|f1
+-|-|-|-
+PER|0.9372|0.9598|0.9483
+ORG|0.8099|0.8265|0.8181
+LOC|0.8905|0.9005|0.8955
+MISC|0.8175|0.8117|0.8146
+For those who could be interested, here is a short article on how I used the results of this model to train a LSTM model for signature detection in emails:
+https://medium.com/@jean-baptiste.polle/lstm-model-for-email-signature-detection-8e990384fefa

audio/ner/camember-ner/config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "camembert-base",
+  "architectures": [
+    "CamembertForTokenClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 5,
+  "eos_token_id": 6,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "O",
+    "1": "I-LOC",
+    "2": "I-PER",
+    "3": "I-MISC",
+    "4": "I-ORG"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "I-LOC": 1,
+    "I-MISC": 3,
+    "O": 0,
+    "I-ORG": 4,
+    "I-PER": 2
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "camembert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.3.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 32005
+}

audio/ner/camember-ner/model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9dfa2ec9e0bfad82d606782ba3e0ab94c001c46481514e0658fc20a624845c5
+size 440422178

audio/ner/camember-ner/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:decc811bc764b0e94f1adc16b37a127300201eb8b5e4b733a89185d68b9d81c9
+size 440168896

audio/ner/camember-ner/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9f586c5bc5943992fa49fe0c0c390dace2a48288d1cec0680cd96fcd17ed037
+size 440227047

audio/ner/camember-ner/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:988bc5a00281c6d210a5d34bd143d0363741a432fefe741bf71e61b1869d4314
+size 810912

audio/ner/camember-ner/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": "<mask>", "additional_special_tokens": ["<s>NOTUSED", "</s>NOTUSED"]}

audio/ner/camember-ner/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": "<mask>", "additional_special_tokens": ["<s>NOTUSED", "</s>NOTUSED"], "model_max_length": 512, "name_or_path": "camembert-base"}

audio/ner/camember-ner/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff