akhooli commited on
Commit
5488b1b
1 Parent(s): e5b07c1

Add SetFit model

Browse files
README.md CHANGED
@@ -1,5 +1,5 @@
1
  ---
2
- base_model: sentence-transformers/distiluse-base-multilingual-cased-v1
3
  library_name: setfit
4
  metrics:
5
  - accuracy
@@ -10,32 +10,16 @@ tags:
10
  - text-classification
11
  - generated_from_setfit_trainer
12
  widget:
13
- - text: كان جزء من المطعم يقع في الهواء الطلق كانت أسوأ تجربة مررت بها عندما كنت أجلس
14
- خارج الفندق لتناول مشروب في المساء أثناء مشاهدة مبارة التشيك مع تركيا في بطولة
15
- يورو . تلقى السائح الألماني الذي كان يجلس على الطاولة بجانبنا فاتورة تضم تكاليف
16
- طعام ومشروبات لم يطلبها ولكنها وضعت على طاولته وثمن طعام لم يصل أيضا كان النادل
17
- غير مبال وهز كتفيه ثم أحضر المدير الذي لم يكن متعاونا بنفس القدر. ثم كانت دهشتنا
18
- عندما ذهب المدير ليطرق نافذة سيارة الشرطة التي كانت متوقفة خارج منطقة الجلوس لمراقبة
19
- الحشود التي كانت تشاهد المباراة على شاشة كبيرة في ميدان وينسيسلاس. هناك الآن رجال
20
- شرطة والمدير والنادل يواجهون هذا الرجل الذي كان مؤدبا وهادئا للغاية لكنه كان مصرا
21
- على الدفاع عن موقفه. ظل يدعي أنه لم يجلس على الطاولة لفترة طويلة بما يكفي لتناول
22
- وشرب ما كانوا يطالبونه بالدفع مقابله. كان المشهد مروعا ويحدث على بعد متر من طاولتنا،
23
- لذا قررنا المغادرة. المكان في حاجة إلى بعض خدمة العملاء كانت المشروبات باهظة الثمن
24
- للغاية. تجنب هذا المكان. جرب تناول الطعام أو مشروب في نيبوزيزيك في منتصف الطريق
25
- المائل إلى بيترن هيل الأسعار جميلة ومعقولة.
26
- - text: الرواية دي اي كلام يتقال عليها يقلل من قيمتها لأنها احسن من اي ريفيو...ببساطة
27
- خمس نجوم لا تكفي
28
- - text: مقبول. الموقع قريب من الحرم النبوي. الاستقبال كان سيء جدا، الأثاث قديم جدا
29
- ، المطعم صغير ومزدحم والقيمة مقابل المال دون المستوىلاأنصح أبدا بالإقامة فيه،
30
- حيث أن وجدت هناك فنادق أفضل منه وأرخص
31
- - text: أكثر من كتاب .. أكثر من حياة. الفهم التجديدي ، والاختصار الشمولي العميق ،
32
- واللغة السلسة الواضحة ، كل هذه المزايا تضع الكتاب موضع استحقاق القراءة أكثر من
33
- مرة ..
34
- - text: مكان راحه البال . المكان نظيف جدا ومريح جدا. عدم وجود مكان للباركن السياره
35
- فالفندق
36
  inference: true
37
  model-index:
38
- - name: SetFit with sentence-transformers/distiluse-base-multilingual-cased-v1
39
  results:
40
  - task:
41
  type: text-classification
@@ -46,13 +30,13 @@ model-index:
46
  split: test
47
  metrics:
48
  - type: accuracy
49
- value: 0.45696969696969697
50
  name: Accuracy
51
  ---
52
 
53
- # SetFit with sentence-transformers/distiluse-base-multilingual-cased-v1
54
 
55
- This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [sentence-transformers/distiluse-base-multilingual-cased-v1](https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v1) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
56
 
57
  The model has been trained using an efficient few-shot learning technique that involves:
58
 
@@ -63,10 +47,10 @@ The model has been trained using an efficient few-shot learning technique that i
63
 
64
  ### Model Description
65
  - **Model Type:** SetFit
66
- - **Sentence Transformer body:** [sentence-transformers/distiluse-base-multilingual-cased-v1](https://huggingface.co/sentence-transformers/distiluse-base-multilingual-cased-v1)
67
  - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
68
- - **Maximum Sequence Length:** 128 tokens
69
- - **Number of Classes:** 3 classes
70
  <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
71
  <!-- - **Language:** Unknown -->
72
  <!-- - **License:** Unknown -->
@@ -78,18 +62,19 @@ The model has been trained using an efficient few-shot learning technique that i
78
  - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
79
 
80
  ### Model Labels
81
- | Label | Examples |
82
- |:---------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
83
- | Positive | <ul><li>'. نجمات. قصة جيدة. لا أدري ما الذي أغضبني أكثر تعامل البشر مع الحيوانات أم تعامل الخنازير مع الحيوانات .. لأنه يبدو لي أن الخنازير كانت بارعة في دور الإنسان أكثر من الإنسان نفسه . لقراءتي عن بعض الثورات مؤخرا رحت أقارن بين الأحداث هنا و هناك يا ترى هل سيكون لجميعها نهاية كهذه ؟ هل سيكون لكل شخص بدوره المذكور نهاية كالتي طالته هنا كذلك ؟'</li><li>'وكأن ما يكتبه قد كتبته بيدي أصبح اأعرف حتى ما ينوي قوله تعجز الكلامات عن وصفه'</li><li>'تقول في روايتها : لا أفقر من امرأة لا ذكريات لها. وأنا أقول لا أفقر من قارئ لا يقرأ لها. ... أعتقد أن أحلام أرادت أن تنتصر المرأه هذه المره حتى على حساب الحب. بنسبه إلي كانت لغة أحلام قوية كعادتها تجيد أختيار الخيوط لكن هذه المره فشل في حياكتها. أظنها أرادتها كنزه أفصبحت جورب. أو أن في كتابها الأخير نسيان أردات أن يطبق هذا على واقع أوراقها وينسى الحب أبطاله'</li></ul> |
84
- | Mixed | <ul><li>'مناسب للميزانيات المحدودة . قرب الفندق من ديرة ستي سنتر نظيف و مرتب مقارنة بالفنادق اللي بنفس السعر. الاضاءة ضعيفة سواء في الغرف او في الاستقبالالفطور بسيط وطلبات الغرف تقدم بصينية وصحون بلاستيكية'</li><li>'نعيش أياما سوداء يا صديقى إذا كانت لديك فرصة للهجرة أرجوك هاجر ، و إذا كان ابنك أو شقيقك يحلم بالهجرة أرجوك لا تقف فى طريقه ، و إذا كنت بره أساسا أرجوك خليك عندك ؛ فالبلد لن ينصلح حاله قريبا حتى لو تغير النظام ، فالمشكلة الأكبر فى الناس ، الهجرة يا صديقى الهجرة .. الحياة ليست بروفة وستعيش مرة واحدة فحاول أن تعيشها صح .'</li><li>'متعب. أقمت كجزء من مجموعة. لم أنفق مثل تلك النفقات الكثيرة منذ أن تم تطويره والتي تبدو نفقات باهظة في لمح البصر. بدا مكلفا للغاية مقارنة بالوضع الذي كان عليه. وبكلامنا نحن الإنجليز، الفندق نجوم إلى حد كبير وليس مجرد نجوم، ولكنه قديم جدا بالفعل... كانت الغرفة ذات ورق حائط ملطخ والسجاجيد رقيقة والسرير غير مستو ولكن الأغطية والألحفة نظيفة ورائعة . كانت هناك بعض الأمور الغريبة، على سبيل المثال: لم لم تكن هناك مصاعد جاهزة في الطابق الأرضي مطلقا؟ كانت غرفة البخار لا تعمل طوال الأسبوع. لا يتم تقديم الكحول في الردهة بعد الساعة الثانية عشر لكن كان يقدم في النادي الصاخب فى الطابق الثالث. المكان مناسب للعمل ولمشاهدة المناظر بشكل معقول. إذا كنت في رحلة رومانسية إلى هانوي... فلا مجال لذلك'</li></ul> |
85
- | Negative | <ul><li>'مخيب للأمل. . أصوات أعمال بناء و إزعاج شديد من مطارق و حفر من الصباح الباكر لم نستطع بسببها النوم و الراحة مع عدم تجاوب مسؤول الفندق مع الشكوى و التعامل غير الجيد مع الشكوى'</li><li>'مش سطحية بس الخلاصة ثورات انقلابات قتل قتل قتل كتير. اللى يصحى بدري يمسك الحكم'</li><li>'رواية مملة ، لم أستفد منها شيئا سوى من ناحية الأحداث المتوقعه أغلبها أو حتى من الناحية اللغوية ، لا أنكر أن هناك بعض العبارات الجميلة لكن لم توظف ف المكان ولا الزمن المناسب لذا فقدت روعتها ، يجب على الكاتب أن يكثف القراءة ويعيد ترتيب حساباته ، بالمناسبة هو يمتلك قلم جيد لكن لم يستخدم بشكل جميل .'</li></ul> |
 
86
 
87
  ## Evaluation
88
 
89
  ### Metrics
90
  | Label | Accuracy |
91
  |:--------|:---------|
92
- | **all** | 0.4570 |
93
 
94
  ## Uses
95
 
@@ -109,7 +94,7 @@ from setfit import SetFitModel
109
  # Download from the 🤗 Hub
110
  model = SetFitModel.from_pretrained("akhooli/setfit")
111
  # Run inference
112
- preds = model("مكان راحه البال . المكان نظيف جدا ومريح جدا. عدم وجود مكان للباركن السياره فالفندق")
113
  ```
114
 
115
  <!--
@@ -139,19 +124,18 @@ preds = model("مكان راحه البال . المكان نظيف جدا وم
139
  ## Training Details
140
 
141
  ### Training Set Metrics
142
- | Training set | Min | Median | Max |
143
- |:-------------|:----|:-------|:----|
144
- | Word count | 5 | 38.625 | 127 |
145
 
146
- | Label | Training Sample Count |
147
- |:---------|:----------------------|
148
- | Mixed | 8 |
149
- | Negative | 8 |
150
- | Positive | 8 |
151
 
152
  ### Training Hyperparameters
153
  - batch_size: (32, 32)
154
- - num_epochs: (4, 4)
155
  - max_steps: -1
156
  - sampling_strategy: oversampling
157
  - body_learning_rate: (2e-05, 1e-05)
@@ -168,13 +152,12 @@ preds = model("مكان راحه البال . المكان نظيف جدا وم
168
  - load_best_model_at_end: True
169
 
170
  ### Training Results
171
- | Epoch | Step | Training Loss | Validation Loss |
172
- |:------:|:----:|:-------------:|:---------------:|
173
- | 0.1667 | 1 | 0.3001 | - |
174
- | 1.0 | 6 | - | 0.2727 |
175
- | 2.0 | 12 | - | 0.2697 |
176
- | 3.0 | 18 | - | 0.2861 |
177
- | 4.0 | 24 | - | 0.2927 |
178
 
179
  ### Framework Versions
180
  - Python: 3.10.14
 
1
  ---
2
+ base_model: akhooli/sbert_ar_nli_500k_norm
3
  library_name: setfit
4
  metrics:
5
  - accuracy
 
10
  - text-classification
11
  - generated_from_setfit_trainer
12
  widget:
13
+ - text: 'هل كان من الممكن أن أكون مهووسًا أكثر عندما سمعت أن أبولو 13 سيتم إصداره
14
+ بتنسيق آيماكس؟ '
15
+ - text: 'يبدو أنه تم إعادة تجميعه من أرضية غرفة التقطيع لأي صابون نهاري. '
16
+ - text: 'تخريبي، تأملي، سريري وشاعري، مدرس البيانو هو عمل جريء من العبقرية. '
17
+ - text: 'يثبت نولان أنه يستطيع أن يتعارض مع أفضلهم ويدير فيلم تشويق تقليدي أكثر بينما
18
+ يتخلى عن القليل من صرامته الفكرية أو رباطة جأشه الإبداعية. '
19
+ - text: 'فيلم بائس يختزل الحرب العالمية الثانية إلى سعي رجل واحد للعثور على شعلة قديمة. '
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
20
  inference: true
21
  model-index:
22
+ - name: SetFit with akhooli/sbert_ar_nli_500k_norm
23
  results:
24
  - task:
25
  type: text-classification
 
30
  split: test
31
  metrics:
32
  - type: accuracy
33
+ value: 0.56
34
  name: Accuracy
35
  ---
36
 
37
+ # SetFit with akhooli/sbert_ar_nli_500k_norm
38
 
39
+ This is a [SetFit](https://github.com/huggingface/setfit) model that can be used for Text Classification. This SetFit model uses [akhooli/sbert_ar_nli_500k_norm](https://huggingface.co/akhooli/sbert_ar_nli_500k_norm) as the Sentence Transformer embedding model. A [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance is used for classification.
40
 
41
  The model has been trained using an efficient few-shot learning technique that involves:
42
 
 
47
 
48
  ### Model Description
49
  - **Model Type:** SetFit
50
+ - **Sentence Transformer body:** [akhooli/sbert_ar_nli_500k_norm](https://huggingface.co/akhooli/sbert_ar_nli_500k_norm)
51
  - **Classification head:** a [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) instance
52
+ - **Maximum Sequence Length:** 512 tokens
53
+ - **Number of Classes:** 4 classes
54
  <!-- - **Training Dataset:** [Unknown](https://huggingface.co/datasets/unknown) -->
55
  <!-- - **Language:** Unknown -->
56
  <!-- - **License:** Unknown -->
 
62
  - **Blogpost:** [SetFit: Efficient Few-Shot Learning Without Prompts](https://huggingface.co/blog/setfit)
63
 
64
  ### Model Labels
65
+ | Label | Examples |
66
+ |:------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
67
+ | 0 | <ul><li>'الحماقة الشاملة مثل هذه هي مسألة ذوق. '</li><li>'... أصبح أكثر واهية بالتأكيد مع العديد من القطع الثابتة ذات الحجم الكبير والبعيدة عن الشخصية والمسامية منطقيًا. '</li><li>'أعتقد أن الخطأ الأول هو تصوير شاتنر في دور أستاذ أسطوري وكونيس في دور طالب جامعي لامع - أين هو بولي شور في دور عالم الصواريخ؟ '</li></ul> |
68
+ | | <ul><li>"إن مور يشبه الثور التقدمي في متجر للخزف الصيني، وهو محرض يقتحم الأفكار ومجموعات المصالح الخاصة بينما يجمع علامته التجارية الخاصة من الليبرالية. '$$ 0"</li><li>"`` كوين -lrb- لكريستيان بيل هو -rrb- قرصان غرانج يرتدي ملابس جلدية مع تسريحة شعر مثل غاندالف في نفق الرياح ولهجة كوكني المذهلة ببساطة. '$$ 0"</li><li>'يحمل هذا الفيلم الرقيق على كتفيه الرشيقتين، ويخوض تشان في الكتابة الفاسدة والاتجاه والتوقيت بابتسامة تقول: "إذا بقيت إيجابيًا، فربما أستطيع أن أعرض واحدة من أعظم صوري، المعلم السكير". \'$$ 0'</li></ul> |
69
+ | 1 | <ul><li>'... إنه مفهوم مثل أي دليل دمى، وهو شيء يمكن حتى لغير التقنيين الاستمتاع به. '</li><li>'لن يرحب الجميع أو يقبلوا محاكمات هنري كيسنجر باعتبارها لوحة مخلصة، لكن قليلين هم من يستطيعون القول بأن المناقشة التي تنضم إليها هذه المحاكمة ضرورية وتأتي في الوقت المناسب. '</li><li>'على الرغم من أنه يقرع طبلًا مبتذلًا جدًا في بعض الأحيان، إلا أن الحوار الجديد لهذا الجمهور الممتع، والموسيقى النشطة، والشجاعة اللطيفة غالبًا ما تكون معدية. '</li></ul> |
70
+ | 0 | <ul><li>'ليس بالضبط ركب النحل '</li><li>'أنا أكره هذا الفيلم '</li></ul> |
71
 
72
  ## Evaluation
73
 
74
  ### Metrics
75
  | Label | Accuracy |
76
  |:--------|:---------|
77
+ | **all** | 0.56 |
78
 
79
  ## Uses
80
 
 
94
  # Download from the 🤗 Hub
95
  model = SetFitModel.from_pretrained("akhooli/setfit")
96
  # Run inference
97
+ preds = model("يبدو أنه تم إعادة تجميعه من أرضية غرفة التقطيع لأي صابون نهاري. ")
98
  ```
99
 
100
  <!--
 
124
  ## Training Details
125
 
126
  ### Training Set Metrics
127
+ | Training set | Min | Median | Max |
128
+ |:-------------|:----|:--------|:----|
129
+ | Word count | 5 | 16.5769 | 31 |
130
 
131
+ | Label | Training Sample Count |
132
+ |:-------|:----------------------|
133
+ | سلبي | 0 |
134
+ | إيجابي | 0 |
 
135
 
136
  ### Training Hyperparameters
137
  - batch_size: (32, 32)
138
+ - num_epochs: (3, 3)
139
  - max_steps: -1
140
  - sampling_strategy: oversampling
141
  - body_learning_rate: (2e-05, 1e-05)
 
152
  - load_best_model_at_end: True
153
 
154
  ### Training Results
155
+ | Epoch | Step | Training Loss | Validation Loss |
156
+ |:-----:|:----:|:-------------:|:---------------:|
157
+ | 0.125 | 1 | 0.278 | - |
158
+ | 1.0 | 8 | - | 0.2514 |
159
+ | 2.0 | 16 | - | 0.2524 |
160
+ | 3.0 | 24 | - | 0.2543 |
 
161
 
162
  ### Framework Versions
163
  - Python: 3.10.14
config.json CHANGED
@@ -1,24 +1,25 @@
1
  {
2
- "_name_or_path": "sentence-transformers/distiluse-base-multilingual-cased-v1",
3
- "activation": "gelu",
4
  "architectures": [
5
- "DistilBertModel"
6
  ],
7
- "attention_dropout": 0.1,
8
- "dim": 768,
9
- "dropout": 0.1,
10
- "hidden_dim": 3072,
 
11
  "initializer_range": 0.02,
 
 
12
  "max_position_embeddings": 512,
13
- "model_type": "distilbert",
14
- "n_heads": 12,
15
- "n_layers": 6,
16
  "pad_token_id": 0,
17
- "qa_dropout": 0.1,
18
- "seq_classif_dropout": 0.2,
19
- "sinusoidal_pos_embds": false,
20
- "tie_weights_": true,
21
  "torch_dtype": "float32",
22
  "transformers_version": "4.45.1",
23
- "vocab_size": 119547
 
 
24
  }
 
1
  {
2
+ "_name_or_path": "akhooli/sbert_ar_nli_500k_norm",
 
3
  "architectures": [
4
+ "BertModel"
5
  ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "hidden_act": "gelu",
9
+ "hidden_dropout_prob": 0.1,
10
+ "hidden_size": 768,
11
  "initializer_range": 0.02,
12
+ "intermediate_size": 3072,
13
+ "layer_norm_eps": 1e-12,
14
  "max_position_embeddings": 512,
15
+ "model_type": "bert",
16
+ "num_attention_heads": 12,
17
+ "num_hidden_layers": 12,
18
  "pad_token_id": 0,
19
+ "position_embedding_type": "absolute",
 
 
 
20
  "torch_dtype": "float32",
21
  "transformers_version": "4.45.1",
22
+ "type_vocab_size": 2,
23
+ "use_cache": true,
24
+ "vocab_size": 64000
25
  }
config_setfit.json CHANGED
@@ -1,8 +1,7 @@
1
  {
 
2
  "labels": [
3
- "Mixed",
4
- "Negative",
5
- "Positive"
6
- ],
7
- "normalize_embeddings": false
8
  }
 
1
  {
2
+ "normalize_embeddings": false,
3
  "labels": [
4
+ "\u0633\u0644\u0628\u064a",
5
+ "\u0625\u064a\u062c\u0627\u0628\u064a"
6
+ ]
 
 
7
  }
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d84bc88a6b764709dd4fa7c3e29b7e36f3de9d5cec70e876f2bbb6de150c320c
3
- size 538947416
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1b628c68daba3687b8469e572093d3c1e5f8bcf02387576f4c10366bdc9624ee
3
+ size 540795752
model_head.pkl CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:efddb0394f5ff4e41d62c78c799c5d0d3e8c2ce18e25a2029ccd99028a8890cb
3
- size 13231
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:44f6f41c120fee60401383759d2b4e49051398374d385f540f774b0493c20882
3
+ size 25463
modules.json CHANGED
@@ -10,11 +10,5 @@
10
  "name": "1",
11
  "path": "1_Pooling",
12
  "type": "sentence_transformers.models.Pooling"
13
- },
14
- {
15
- "idx": 2,
16
- "name": "2",
17
- "path": "2_Dense",
18
- "type": "sentence_transformers.models.Dense"
19
  }
20
  ]
 
10
  "name": "1",
11
  "path": "1_Pooling",
12
  "type": "sentence_transformers.models.Pooling"
 
 
 
 
 
 
13
  }
14
  ]
sentence_bert_config.json CHANGED
@@ -1,4 +1,4 @@
1
  {
2
- "max_seq_length": 128,
3
  "do_lower_case": false
4
  }
 
1
  {
2
+ "max_seq_length": 512,
3
  "do_lower_case": false
4
  }
tokenizer.json CHANGED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json CHANGED
@@ -8,7 +8,7 @@
8
  "single_word": false,
9
  "special": true
10
  },
11
- "100": {
12
  "content": "[UNK]",
13
  "lstrip": false,
14
  "normalized": false,
@@ -16,7 +16,7 @@
16
  "single_word": false,
17
  "special": true
18
  },
19
- "101": {
20
  "content": "[CLS]",
21
  "lstrip": false,
22
  "normalized": false,
@@ -24,7 +24,7 @@
24
  "single_word": false,
25
  "special": true
26
  },
27
- "102": {
28
  "content": "[SEP]",
29
  "lstrip": false,
30
  "normalized": false,
@@ -32,27 +32,62 @@
32
  "single_word": false,
33
  "special": true
34
  },
35
- "103": {
36
  "content": "[MASK]",
37
  "lstrip": false,
38
  "normalized": false,
39
  "rstrip": false,
40
  "single_word": false,
41
  "special": true
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
42
  }
43
  },
44
- "clean_up_tokenization_spaces": false,
45
  "cls_token": "[CLS]",
46
  "do_basic_tokenize": true,
47
  "do_lower_case": false,
48
  "mask_token": "[MASK]",
49
  "max_len": 512,
50
- "model_max_length": 128,
51
- "never_split": null,
 
 
 
 
 
 
52
  "pad_token": "[PAD]",
 
 
53
  "sep_token": "[SEP]",
 
54
  "strip_accents": null,
55
  "tokenize_chinese_chars": true,
56
- "tokenizer_class": "DistilBertTokenizer",
 
 
57
  "unk_token": "[UNK]"
58
  }
 
8
  "single_word": false,
9
  "special": true
10
  },
11
+ "1": {
12
  "content": "[UNK]",
13
  "lstrip": false,
14
  "normalized": false,
 
16
  "single_word": false,
17
  "special": true
18
  },
19
+ "2": {
20
  "content": "[CLS]",
21
  "lstrip": false,
22
  "normalized": false,
 
24
  "single_word": false,
25
  "special": true
26
  },
27
+ "3": {
28
  "content": "[SEP]",
29
  "lstrip": false,
30
  "normalized": false,
 
32
  "single_word": false,
33
  "special": true
34
  },
35
+ "4": {
36
  "content": "[MASK]",
37
  "lstrip": false,
38
  "normalized": false,
39
  "rstrip": false,
40
  "single_word": false,
41
  "special": true
42
+ },
43
+ "5": {
44
+ "content": "[رابط]",
45
+ "lstrip": false,
46
+ "normalized": true,
47
+ "rstrip": false,
48
+ "single_word": true,
49
+ "special": true
50
+ },
51
+ "6": {
52
+ "content": "[بريد]",
53
+ "lstrip": false,
54
+ "normalized": true,
55
+ "rstrip": false,
56
+ "single_word": true,
57
+ "special": true
58
+ },
59
+ "7": {
60
+ "content": "[مستخدم]",
61
+ "lstrip": false,
62
+ "normalized": true,
63
+ "rstrip": false,
64
+ "single_word": true,
65
+ "special": true
66
  }
67
  },
68
+ "clean_up_tokenization_spaces": true,
69
  "cls_token": "[CLS]",
70
  "do_basic_tokenize": true,
71
  "do_lower_case": false,
72
  "mask_token": "[MASK]",
73
  "max_len": 512,
74
+ "max_length": 512,
75
+ "model_max_length": 512,
76
+ "never_split": [
77
+ "[بريد]",
78
+ "[مستخدم]",
79
+ "[رابط]"
80
+ ],
81
+ "pad_to_multiple_of": null,
82
  "pad_token": "[PAD]",
83
+ "pad_token_type_id": 0,
84
+ "padding_side": "right",
85
  "sep_token": "[SEP]",
86
+ "stride": 0,
87
  "strip_accents": null,
88
  "tokenize_chinese_chars": true,
89
+ "tokenizer_class": "BertTokenizer",
90
+ "truncation_side": "right",
91
+ "truncation_strategy": "longest_first",
92
  "unk_token": "[UNK]"
93
  }
vocab.txt CHANGED
The diff for this file is too large to render. See raw diff