josedossantos commited on
Commit
71564fb
1 Parent(s): 210098b

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,365 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: []
3
+ library_name: sentence-transformers
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - dataset_size:10K<n<100K
9
+ - loss:ContrastiveLoss
10
+ widget:
11
+ - source_sentence: Voto facultativo, eleitor, maior de dezesseis anos.
12
+ sentences:
13
+ - 'Voto facultativo, alistamento eleitoral, maior de dezesseis anos. '
14
+ - Constituição Federal (1988), mandato, Ministro do Supremo Tribunal Federal, quórum
15
+ de aprovação, Senado Federal.
16
+ - "Criação, Unidade Móvel de Atendimento Veterinário, cachorro, gato.\t"
17
+ - source_sentence: Inclusão, cerrado, caatinga, patrimônio da União.
18
+ sentences:
19
+ - Alteração, Constituição Federal, Meio Ambiente, inclusão, ecossistema, mar, caatinga,
20
+ campo, Região Sul, Patrimônio da União.
21
+ - Alteração, Código Civil (2002), sucessão hereditária, bens digitais Herança digital,
22
+ Conta de usuário, internet.
23
+ - Alteração, Lei de Licitação, preferência, desempate, licitação, empresa, prática,
24
+ atenuação, mudança climática.
25
+ - source_sentence: Alteração, fixação, jornada de trabalho, psicólogo.
26
+ sentences:
27
+ - Alteração, regulamentação, jornada de trabalho, psicólogo.
28
+ - 'Alteração, Código Civil (2002), inclusão, direito real, multipropriedade imobiliária,
29
+ definição, conceituação. '
30
+ - "Constituição Federal (1988), requisito, dupla nacionalidade, nacionalidade brasileira,\
31
+ \ naturalização, casamento.\r\n\r\n"
32
+ - source_sentence: Fixação, preço, Gás Liquefeito de Petróleo (GLP).
33
+ sentences:
34
+ - Inclusão, cesta básica, valor, Gás Liquefeito de Petróleo (GLP).
35
+ - 'Obrigatoriedade, instituição financeira, anuência prévia, cliente, aumento, Limite
36
+ de crédito, cheque especial. '
37
+ - 'Atuação, delegacia da mulher, procedimento, inexistência, delegacia. '
38
+ - source_sentence: Critério, implementação, energia solar, órgão público.
39
+ sentences:
40
+ - Obrigatoriedade, utilização, lâmpada de LED, edifício público.
41
+ - Constituição Federal (1988), mandato, Ministro do Supremo Tribunal Federal, quórum
42
+ de aprovação, Senado Federal.
43
+ - Alteração, Código Civil, garantia, companheiro, direito real, habitação, imóvel
44
+ residencial, inventário.
45
+ pipeline_tag: sentence-similarity
46
+ ---
47
+
48
+ # SentenceTransformer
49
+
50
+ This is a [sentence-transformers](https://www.SBERT.net) model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
51
+
52
+ ## Model Details
53
+
54
+ ### Model Description
55
+ - **Model Type:** Sentence Transformer
56
+ <!-- - **Base model:** [Unknown](https://huggingface.co/unknown) -->
57
+ - **Maximum Sequence Length:** 512 tokens
58
+ - **Output Dimensionality:** 768 tokens
59
+ - **Similarity Function:** Cosine Similarity
60
+ <!-- - **Training Dataset:** Unknown -->
61
+ <!-- - **Language:** Unknown -->
62
+ <!-- - **License:** Unknown -->
63
+
64
+ ### Model Sources
65
+
66
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
67
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
68
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
69
+
70
+ ### Full Model Architecture
71
+
72
+ ```
73
+ SentenceTransformer(
74
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
75
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
76
+ )
77
+ ```
78
+
79
+ ## Usage
80
+
81
+ ### Direct Usage (Sentence Transformers)
82
+
83
+ First install the Sentence Transformers library:
84
+
85
+ ```bash
86
+ pip install -U sentence-transformers
87
+ ```
88
+
89
+ Then you can load this model and run inference.
90
+ ```python
91
+ from sentence_transformers import SentenceTransformer
92
+
93
+ # Download from the 🤗 Hub
94
+ model = SentenceTransformer("josedossantos/urf-txtIndexacao-legalbert")
95
+ # Run inference
96
+ sentences = [
97
+ 'Critério, implementação, energia solar, órgão público.',
98
+ 'Obrigatoriedade, utilização, lâmpada de LED, edifício público.',
99
+ 'Constituição Federal (1988), mandato, Ministro do Supremo Tribunal Federal, quórum de aprovação, Senado Federal.',
100
+ ]
101
+ embeddings = model.encode(sentences)
102
+ print(embeddings.shape)
103
+ # [3, 768]
104
+
105
+ # Get the similarity scores for the embeddings
106
+ similarities = model.similarity(embeddings, embeddings)
107
+ print(similarities.shape)
108
+ # [3, 3]
109
+ ```
110
+
111
+ <!--
112
+ ### Direct Usage (Transformers)
113
+
114
+ <details><summary>Click to see the direct usage in Transformers</summary>
115
+
116
+ </details>
117
+ -->
118
+
119
+ <!--
120
+ ### Downstream Usage (Sentence Transformers)
121
+
122
+ You can finetune this model on your own dataset.
123
+
124
+ <details><summary>Click to expand</summary>
125
+
126
+ </details>
127
+ -->
128
+
129
+ <!--
130
+ ### Out-of-Scope Use
131
+
132
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
133
+ -->
134
+
135
+ <!--
136
+ ## Bias, Risks and Limitations
137
+
138
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
139
+ -->
140
+
141
+ <!--
142
+ ### Recommendations
143
+
144
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
145
+ -->
146
+
147
+ ## Training Details
148
+
149
+ ### Training Dataset
150
+
151
+ #### Unnamed Dataset
152
+
153
+
154
+ * Size: 10,962 training samples
155
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
156
+ * Approximate statistics based on the first 1000 samples:
157
+ | | sentence_0 | sentence_1 | label |
158
+ |:--------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------|
159
+ | type | string | string | int |
160
+ | details | <ul><li>min: 10 tokens</li><li>mean: 50.52 tokens</li><li>max: 402 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 52.96 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>0: ~48.20%</li><li>1: ~51.80%</li></ul> |
161
+ * Samples:
162
+ | sentence_0 | sentence_1 | label |
163
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
164
+ | <code>Alteração, lei federal, critérios, restrição, aquisição, imóvel rural, propriedade rural, estrangeiro, pessoa jurídica estrangeira, posse, terras.</code> | <code>Alteração, Constituição Federal, expropriação, gleba, confisco, terras, aquisição, pessoa física, pessoa jurídica, estrangeiro, Região Amazônica, ausência, indenização.</code> | <code>1</code> |
165
+ | <code>Alteração, Constituição Federal, revogação, dispositivos, exclusão, limitação, percentagem, gastos públicos, receita municipal, Municipios, folha de pagamento, inclusão, subsídio, Vereador, crime de responsabilidade, Presidente, Câmara Municipal, desrespeito, limite máximo, despesa pública.</code> | <code>Alteração, Lei Orgânica dos Partidos Políticos (1995), fixação, percentual, recursos, Fundo partidário, campanha eleitoral, criação, Fundo de Financiamento de Campanhas Eleitorais, limite, gasto ,pagamento, empregado, manutenção, sede, redução, percentual, instituição, educação política, partido político. </code> | <code>0</code> |
166
+ | <code>Alteração, Lei Maria da Penha, medida preventiva, condomínio residencial, capacitação, síndico, trabalhador, divulgação,, placa, prevenção, crime, violência doméstica, mulher.</code> | <code>Alteração, Lei do Condomínio, obrigatoriedade, síndico, condômino, locatário, proprietário, comunicação, Autoridade competente, violência doméstica, Violência contra a mulher, criança, adolescente, idoso, Pessoa com deficiência. _ Alteração, Código Civil (2002), critério, Convenção condominial, Condomínio edilício, deveres, síndico, condômino, locatário, proprietário, comunicação, Autoridade competente, violência doméstica, Violência contra a mulher, criança, adolescente, idoso, Pessoa com deficiência. _ Alteração, Código Penal, Periclitação da vida e da saúde, crime, omissão de socorro, vítima, violência doméstica.</code> | <code>0</code> |
167
+ * Loss: [<code>ContrastiveLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters:
168
+ ```json
169
+ {
170
+ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
171
+ "margin": 0.5,
172
+ "size_average": true
173
+ }
174
+ ```
175
+
176
+ ### Training Hyperparameters
177
+ #### Non-Default Hyperparameters
178
+
179
+ - `per_device_train_batch_size`: 2
180
+ - `per_device_eval_batch_size`: 2
181
+ - `num_train_epochs`: 1
182
+ - `multi_dataset_batch_sampler`: round_robin
183
+
184
+ #### All Hyperparameters
185
+ <details><summary>Click to expand</summary>
186
+
187
+ - `overwrite_output_dir`: False
188
+ - `do_predict`: False
189
+ - `prediction_loss_only`: True
190
+ - `per_device_train_batch_size`: 2
191
+ - `per_device_eval_batch_size`: 2
192
+ - `per_gpu_train_batch_size`: None
193
+ - `per_gpu_eval_batch_size`: None
194
+ - `gradient_accumulation_steps`: 1
195
+ - `eval_accumulation_steps`: None
196
+ - `learning_rate`: 5e-05
197
+ - `weight_decay`: 0.0
198
+ - `adam_beta1`: 0.9
199
+ - `adam_beta2`: 0.999
200
+ - `adam_epsilon`: 1e-08
201
+ - `max_grad_norm`: 1
202
+ - `num_train_epochs`: 1
203
+ - `max_steps`: -1
204
+ - `lr_scheduler_type`: linear
205
+ - `lr_scheduler_kwargs`: {}
206
+ - `warmup_ratio`: 0.0
207
+ - `warmup_steps`: 0
208
+ - `log_level`: passive
209
+ - `log_level_replica`: warning
210
+ - `log_on_each_node`: True
211
+ - `logging_nan_inf_filter`: True
212
+ - `save_safetensors`: True
213
+ - `save_on_each_node`: False
214
+ - `save_only_model`: False
215
+ - `no_cuda`: False
216
+ - `use_cpu`: False
217
+ - `use_mps_device`: False
218
+ - `seed`: 42
219
+ - `data_seed`: None
220
+ - `jit_mode_eval`: False
221
+ - `use_ipex`: False
222
+ - `bf16`: False
223
+ - `fp16`: False
224
+ - `fp16_opt_level`: O1
225
+ - `half_precision_backend`: auto
226
+ - `bf16_full_eval`: False
227
+ - `fp16_full_eval`: False
228
+ - `tf32`: None
229
+ - `local_rank`: 0
230
+ - `ddp_backend`: None
231
+ - `tpu_num_cores`: None
232
+ - `tpu_metrics_debug`: False
233
+ - `debug`: []
234
+ - `dataloader_drop_last`: False
235
+ - `dataloader_num_workers`: 0
236
+ - `dataloader_prefetch_factor`: None
237
+ - `past_index`: -1
238
+ - `disable_tqdm`: False
239
+ - `remove_unused_columns`: True
240
+ - `label_names`: None
241
+ - `load_best_model_at_end`: False
242
+ - `ignore_data_skip`: False
243
+ - `fsdp`: []
244
+ - `fsdp_min_num_params`: 0
245
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
246
+ - `fsdp_transformer_layer_cls_to_wrap`: None
247
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
248
+ - `deepspeed`: None
249
+ - `label_smoothing_factor`: 0.0
250
+ - `optim`: adamw_torch
251
+ - `optim_args`: None
252
+ - `adafactor`: False
253
+ - `group_by_length`: False
254
+ - `length_column_name`: length
255
+ - `ddp_find_unused_parameters`: None
256
+ - `ddp_bucket_cap_mb`: None
257
+ - `ddp_broadcast_buffers`: False
258
+ - `dataloader_pin_memory`: True
259
+ - `dataloader_persistent_workers`: False
260
+ - `skip_memory_metrics`: True
261
+ - `use_legacy_prediction_loop`: False
262
+ - `push_to_hub`: False
263
+ - `resume_from_checkpoint`: None
264
+ - `hub_model_id`: None
265
+ - `hub_strategy`: every_save
266
+ - `hub_private_repo`: False
267
+ - `hub_always_push`: False
268
+ - `gradient_checkpointing`: False
269
+ - `gradient_checkpointing_kwargs`: None
270
+ - `include_inputs_for_metrics`: False
271
+ - `fp16_backend`: auto
272
+ - `push_to_hub_model_id`: None
273
+ - `push_to_hub_organization`: None
274
+ - `mp_parameters`:
275
+ - `auto_find_batch_size`: False
276
+ - `full_determinism`: False
277
+ - `torchdynamo`: None
278
+ - `ray_scope`: last
279
+ - `ddp_timeout`: 1800
280
+ - `torch_compile`: False
281
+ - `torch_compile_backend`: None
282
+ - `torch_compile_mode`: None
283
+ - `dispatch_batches`: None
284
+ - `split_batches`: None
285
+ - `include_tokens_per_second`: False
286
+ - `include_num_input_tokens_seen`: False
287
+ - `neftune_noise_alpha`: None
288
+ - `optim_target_modules`: None
289
+ - `batch_sampler`: batch_sampler
290
+ - `multi_dataset_batch_sampler`: round_robin
291
+
292
+ </details>
293
+
294
+ ### Training Logs
295
+ | Epoch | Step | Training Loss |
296
+ |:------:|:----:|:-------------:|
297
+ | 0.0912 | 500 | 0.0386 |
298
+ | 0.1824 | 1000 | 0.0261 |
299
+ | 0.2737 | 1500 | 0.0238 |
300
+ | 0.3649 | 2000 | 0.0221 |
301
+ | 0.4561 | 2500 | 0.0191 |
302
+ | 0.5473 | 3000 | 0.0179 |
303
+ | 0.6386 | 3500 | 0.0167 |
304
+ | 0.7298 | 4000 | 0.0143 |
305
+ | 0.8210 | 4500 | 0.0142 |
306
+ | 0.9122 | 5000 | 0.0107 |
307
+
308
+
309
+ ### Framework Versions
310
+ - Python: 3.10.14
311
+ - Sentence Transformers: 3.0.0
312
+ - Transformers: 4.39.3
313
+ - PyTorch: 2.2.0
314
+ - Accelerate: 0.30.1
315
+ - Datasets: 2.14.4
316
+ - Tokenizers: 0.15.1
317
+
318
+ ## Citation
319
+
320
+ ### BibTeX
321
+
322
+ #### Sentence Transformers
323
+ ```bibtex
324
+ @inproceedings{reimers-2019-sentence-bert,
325
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
326
+ author = "Reimers, Nils and Gurevych, Iryna",
327
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
328
+ month = "11",
329
+ year = "2019",
330
+ publisher = "Association for Computational Linguistics",
331
+ url = "https://arxiv.org/abs/1908.10084",
332
+ }
333
+ ```
334
+
335
+ #### ContrastiveLoss
336
+ ```bibtex
337
+ @inproceedings{hadsell2006dimensionality,
338
+ author={Hadsell, R. and Chopra, S. and LeCun, Y.},
339
+ booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
340
+ title={Dimensionality Reduction by Learning an Invariant Mapping},
341
+ year={2006},
342
+ volume={2},
343
+ number={},
344
+ pages={1735-1742},
345
+ doi={10.1109/CVPR.2006.100}
346
+ }
347
+ ```
348
+
349
+ <!--
350
+ ## Glossary
351
+
352
+ *Clearly define terms in order to be accessible across audiences.*
353
+ -->
354
+
355
+ <!--
356
+ ## Model Card Authors
357
+
358
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
359
+ -->
360
+
361
+ <!--
362
+ ## Model Card Contact
363
+
364
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
365
+ -->
config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/models/urf/txtIndexacao_lbert/",
3
+ "architectures": [
4
+ "BertModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "classifier_dropout": null,
8
+ "directionality": "bidi",
9
+ "gradient_checkpointing": false,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-12,
16
+ "max_position_embeddings": 512,
17
+ "model_type": "bert",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "output_past": true,
21
+ "pad_token_id": 0,
22
+ "pooler_fc_size": 768,
23
+ "pooler_num_attention_heads": 12,
24
+ "pooler_num_fc_layers": 3,
25
+ "pooler_size_per_head": 128,
26
+ "pooler_type": "first_token_transform",
27
+ "position_embedding_type": "absolute",
28
+ "torch_dtype": "float32",
29
+ "transformers_version": "4.42.4",
30
+ "type_vocab_size": 2,
31
+ "use_cache": true,
32
+ "vocab_size": 29794
33
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.42.4",
5
+ "pytorch": "2.3.1+cu118"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b7ad5b677f5dc8f4d5ecaeb7ada62ecd708a4b3e4cecb587e22ef28af4bbe711
3
+ size 435714904
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[PAD]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "100": {
12
+ "content": "[UNK]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "101": {
20
+ "content": "[CLS]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "102": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "103": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "clean_up_tokenization_spaces": true,
45
+ "cls_token": "[CLS]",
46
+ "do_basic_tokenize": true,
47
+ "do_lower_case": false,
48
+ "mask_token": "[MASK]",
49
+ "max_length": 32,
50
+ "model_max_length": 512,
51
+ "never_split": null,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "[PAD]",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "[SEP]",
57
+ "stride": 0,
58
+ "strip_accents": null,
59
+ "tokenize_chinese_chars": true,
60
+ "tokenizer_class": "BertTokenizer",
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "[UNK]"
64
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff