RamsesDIIP commited on
Commit
1518227
1 Parent(s): 5ed28e7

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,598 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: intfloat/multilingual-e5-large
3
+ language:
4
+ - multilingual
5
+ library_name: sentence-transformers
6
+ license: apache-2.0
7
+ metrics:
8
+ - cosine_accuracy
9
+ - dot_accuracy
10
+ - manhattan_accuracy
11
+ - euclidean_accuracy
12
+ - max_accuracy
13
+ pipeline_tag: sentence-similarity
14
+ tags:
15
+ - sentence-transformers
16
+ - sentence-similarity
17
+ - feature-extraction
18
+ - generated_from_trainer
19
+ - dataset_size:1765
20
+ - loss:TripletLoss
21
+ widget:
22
+ - source_sentence: Pavimento de piedra calcárea nacional serrada y sin pulir, precio
23
+ alto, de 40 mm de espesor con arista viva en los cuatro bordes 1251 a 2500 cm2,
24
+ colocada a pique de maceta con mortero cemento 1:6
25
+ sentences:
26
+ - Bordillo de hormigón recto con canaleta, de una sola capa, dimensiones 40x35 cm,
27
+ instalado sobre una base de hormigón no estructural de 25 a 30 cm de altura y
28
+ sellado con mortero.
29
+ - Pavimento de piedra caliza nacional, sin pulir y con un grosor de 40 mm, con bordes
30
+ afilados, en un rango de 1251 a 2500 cm2, instalado en macetas utilizando mortero
31
+ de cemento en una proporción de 1:6, a un precio elevado.
32
+ - Pavimento de cerámica esmaltada de importación, precio bajo, de 10 mm de espesor
33
+ con bordes redondeados en los cuatro lados 500 a 1000 cm2, instalada en superficie
34
+ plana con adhesivo flexible.
35
+ - source_sentence: Hormigonado para encepados, con hormigón para armar HA - 30 / F
36
+ / 10 / XC4 + XS1 con una cantidad de cemento de 300 kg/m3 i relación agua cemento
37
+ =< 0.5, colocado con bomba en obras de ingeniería civil
38
+ sentences:
39
+ - Placa adicional para señales viales, fabricada en acero galvanizado y pintada,
40
+ con dimensiones de 30x15 cm, recubierta con lámina retrorreflectante de clase
41
+ RA3, montada sobre la señal, en áreas urbanas con limitaciones de movilidad, en
42
+ aceras de más de 3 y hasta 5 m de ancho o en calzadas/plataformas únicas de más
43
+ de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario urbano,
44
+ en proyectos de hasta 1 unidad.
45
+ - Hormigonado para estructuras de madera, con hormigón ligero para aislamiento con
46
+ una cantidad de cemento de 200 kg/m3 y relación agua-cemento >= 0.6, aplicado
47
+ manualmente en proyectos de jardinería.
48
+ - Colocación de hormigón para cimentaciones, utilizando hormigón HA - 30 / F / 10
49
+ / XC4 + XS1 con una dosificación de 300 kg/m3 de cemento y una relación agua-cemento
50
+ menor o igual a 0.5, aplicado mediante bomba en proyectos de infraestructura.
51
+ - source_sentence: Pared estructural para exterior de panel de madera contralaminada
52
+ de 90 mm de espesor formada por 3 capas de madera de abeto C24, encoladas con
53
+ adhesivo sin urea-formaldehído con la disposición transversal de la madera en
54
+ las dos caras del panel, con tratamiento hidrófugo, con acabado superficial tipo
55
+ vivienda en las dos caras con madera de Alerce europeo barnizado en una cara y
56
+ con madera de abeto rojo en la otra con lasur en la otra colocado con fijaciones
57
+ mecánicas, desolidarización del soporte con banda resiliente de caucho EPDM extruido,
58
+ fijada con grapas; unión entre paneles machihembrado fijados con tornillos de
59
+ acero y sellado de la cara interior de los juntas con cinta adhesiva de goma butílica,
60
+ con armadura de poliéster y sellado de la cara exterior con cinta autoadhesiva
61
+ de polietileno con adhesivo acrílico sin disolventes, con armadura de polietileno
62
+ y película de separación de papel siliconado, previa aplicación de imprimación
63
+ incolora a base de una dispersión acrílica sin disolventes; resolución de trabas
64
+ con tornillos de acero; fijación de paneles con elementos de acero galvanizado
65
+ sentences:
66
+ - Pared decorativa para interior de panel de yeso de 12 mm de espesor, compuesta
67
+ por una sola capa de yeso laminado, con acabado superficial tipo pintura acrílica
68
+ en ambas caras, colocada con adhesivo a base de agua, sin tratamiento hidrófugo,
69
+ y fijaciones mecánicas de tipo tornillo, sin necesidad de desolidarización del
70
+ soporte, uniendo los paneles mediante un sistema de encastre simple, y sellado
71
+ de las juntas con masilla acrílica, sin uso de cintas adhesivas.
72
+ - Losetas de pavimento para aceras de 20x20x2,5 cm, clase 1a, de alto costo, instaladas
73
+ a nivel de maceta con mortero de cemento 1:4 y lechada de color utilizando cemento
74
+ blanco de albañilería, en un entorno urbano con fácil acceso, en aceras de más
75
+ de 3 y hasta 5 m de ancho o calzadas/plataformas únicas de más de 7 y hasta 12
76
+ m de ancho, considerando la presencia de servicios o mobiliario urbano, en proyectos
77
+ de entre 1 y 10 m2.
78
+ - Pared exterior de panel de madera contralaminada de 90 mm de grosor compuesta
79
+ por tres capas de madera de abeto C24, unidas con adhesivo libre de urea-formaldehído,
80
+ con la disposición de la madera en sentido transversal en ambas caras del panel,
81
+ tratada para resistir la humedad, y con un acabado de calidad residencial en ambas
82
+ caras utilizando madera de Alerce europeo barnizada en un lado y madera de abeto
83
+ rojo con lasur en el otro, fijada mecánicamente, con desolidarización del soporte
84
+ mediante banda resiliente de caucho EPDM, unida con grapas; los paneles se ensamblan
85
+ mediante machihembrado y se fijan con tornillos de acero, sellando las juntas
86
+ interiores con cinta adhesiva de goma butílica y las exteriores con cinta autoadhesiva
87
+ de polietileno con adhesivo acrílico sin disolventes, además de aplicar una imprimación
88
+ incolora a base de dispersión acrílica sin disolventes; se utilizan tornillos
89
+ de acero para resolver las uniones y se fijan los paneles con elementos de acero
90
+ galvanizado.
91
+ - source_sentence: Ventana de aluminio anodizado natural, colocada sobre premarco,
92
+ con una hoja oscilobatiente e una hoja fija lateral, para un hueco de obra aproximado
93
+ de 150x120 cm, elaborada con perfiles de precio superior, clasificación mínima
94
+ 4 de permeabilidad al aire según UNE-EN 12207, clasificación mínima 9A de estanqueidad
95
+ al agua según UNE-EN 12208 y clasificación mínima C5 de resistencia al viento
96
+ según UNE-EN 12210, con caja de persiana y guías
97
+ sentences:
98
+ - Cable de 11 pares para uso exterior en instalaciones telefónicas, con aislamiento
99
+ y cubierta de polietileno, conductor de cobre rígido de 0,405 mm de diámetro,
100
+ clasificado como Fca según la norma UNE-EN 50575, y protegido con pantalla de
101
+ aluminio/poliéster, instalado en tubo.
102
+ - Ventana de aluminio anodizado en acabado natural, instalada sobre un premarco,
103
+ que incluye una hoja oscilobatiente y una hoja fija lateral, diseñada para un
104
+ hueco de obra de aproximadamente 150x120 cm, fabricada con perfiles de alta gama,
105
+ con una clasificación mínima de 4 en permeabilidad al aire según UNE-EN 12207,
106
+ clasificación mínima 9A en estanqueidad al agua según UNE-EN 12208 y clasificación
107
+ mínima C5 en resistencia al viento según UNE-EN 12210, además de contar con una
108
+ caja de persiana y guías.
109
+ - Puerta de madera tratada, instalada en un marco de acero, con un diseño de apertura
110
+ deslizante y un panel fijo lateral, para un espacio de construcción de aproximadamente
111
+ 200x100 cm, fabricada con materiales de gama media, clasificación mínima 2 de
112
+ aislamiento térmico según UNE-EN 14509, clasificación mínima 5 de resistencia
113
+ al fuego según UNE-EN 13501 y clasificación mínima B3 de resistencia a impactos
114
+ según UNE-EN 12600, sin sistema de persiana ni guías.
115
+ - source_sentence: Banco de tablas de madera tropical con certificado FSC con aceite
116
+ de dos componentes, de dos módulos, de 3,1 m de longitud, con un respaldo de madera
117
+ y con soportes de pletina de acero, colocado con fijaciones mecánicas, en entorno
118
+ urbano sin dificultad de movilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma
119
+ única > 7 y <= 12 m de ancho, con afectación por servicios o elementos de mobiliario
120
+ urbano, en actuaciones de 1 a 5 u
121
+ sentences:
122
+ - Banco de madera reciclada con tratamiento de pintura ecológica, de un solo módulo,
123
+ de 2,5 m de longitud, sin respaldo y con patas de plástico, instalado en un parque
124
+ rural con acceso restringido, en senderos de menos de 3 m de ancho, sin interferencias
125
+ de servicios públicos o mobiliario, en proyectos de 6 a 10 unidades.
126
+ - Base para pavimento de concreto no estructural HNE-15/B/20 con resistencia a compresión
127
+ de 15 N/mm2, de consistencia suave y agregado de tamaño máximo de 20 mm, vertido
128
+ desde camión y compactado manualmente, con acabado nivelado, en áreas urbanas
129
+ con movilidad restringida, en aceras mayores a 5 m de ancho o calzadas/plataformas
130
+ únicas superiores a 12 m de ancho, sin interferencias de servicios o mobiliario
131
+ urbano, en trabajos de hasta 0.2 m3.
132
+ - Banco de madera tropical con certificación FSC, tratado con aceite de dos componentes,
133
+ de dos secciones, con una longitud de 3,1 m, equipado con respaldo de madera y
134
+ soportes de acero, instalado con fijaciones mecánicas en un entorno urbano, apto
135
+ para aceras de más de 3 y hasta 5 m de ancho o calzadas de más de 7 y hasta 12
136
+ m de ancho, considerando la presencia de servicios o mobiliario urbano, en proyectos
137
+ de 1 a 5 unidades.
138
+ model-index:
139
+ - name: Multilingual E5 Large trained with triplet loss
140
+ results:
141
+ - task:
142
+ type: triplet
143
+ name: Triplet
144
+ dataset:
145
+ name: validation set
146
+ type: validation-set
147
+ metrics:
148
+ - type: cosine_accuracy
149
+ value: 0.9886363636363636
150
+ name: Cosine Accuracy
151
+ - type: dot_accuracy
152
+ value: 0.011363636363636364
153
+ name: Dot Accuracy
154
+ - type: manhattan_accuracy
155
+ value: 0.9886363636363636
156
+ name: Manhattan Accuracy
157
+ - type: euclidean_accuracy
158
+ value: 0.9886363636363636
159
+ name: Euclidean Accuracy
160
+ - type: max_accuracy
161
+ value: 0.9886363636363636
162
+ name: Max Accuracy
163
+ - task:
164
+ type: triplet
165
+ name: Triplet
166
+ dataset:
167
+ name: test set
168
+ type: test-set
169
+ metrics:
170
+ - type: cosine_accuracy
171
+ value: 1.0
172
+ name: Cosine Accuracy
173
+ - type: dot_accuracy
174
+ value: 0.0
175
+ name: Dot Accuracy
176
+ - type: manhattan_accuracy
177
+ value: 0.9943502824858758
178
+ name: Manhattan Accuracy
179
+ - type: euclidean_accuracy
180
+ value: 1.0
181
+ name: Euclidean Accuracy
182
+ - type: max_accuracy
183
+ value: 1.0
184
+ name: Max Accuracy
185
+ - type: cosine_accuracy
186
+ value: 1.0
187
+ name: Cosine Accuracy
188
+ - type: dot_accuracy
189
+ value: 0.0
190
+ name: Dot Accuracy
191
+ - type: manhattan_accuracy
192
+ value: 0.9943502824858758
193
+ name: Manhattan Accuracy
194
+ - type: euclidean_accuracy
195
+ value: 1.0
196
+ name: Euclidean Accuracy
197
+ - type: max_accuracy
198
+ value: 1.0
199
+ name: Max Accuracy
200
+ ---
201
+
202
+ # Multilingual E5 Large trained with triplet loss
203
+
204
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) on the csv dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
205
+
206
+ ## Model Details
207
+
208
+ ### Model Description
209
+ - **Model Type:** Sentence Transformer
210
+ - **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision ab10c1a7f42e74530fe7ae5be82e6d4f11a719eb -->
211
+ - **Maximum Sequence Length:** 512 tokens
212
+ - **Output Dimensionality:** 1024 tokens
213
+ - **Similarity Function:** Cosine Similarity
214
+ - **Training Dataset:**
215
+ - csv
216
+ - **Language:** multilingual
217
+ - **License:** apache-2.0
218
+
219
+ ### Model Sources
220
+
221
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
222
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
223
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
224
+
225
+ ### Full Model Architecture
226
+
227
+ ```
228
+ SentenceTransformer(
229
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
230
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
231
+ (2): Normalize()
232
+ )
233
+ ```
234
+
235
+ ## Usage
236
+
237
+ ### Direct Usage (Sentence Transformers)
238
+
239
+ First install the Sentence Transformers library:
240
+
241
+ ```bash
242
+ pip install -U sentence-transformers
243
+ ```
244
+
245
+ Then you can load this model and run inference.
246
+ ```python
247
+ from sentence_transformers import SentenceTransformer
248
+
249
+ # Download from the 🤗 Hub
250
+ model = SentenceTransformer("RamsesDIIP/me5-large-construction-v2")
251
+ # Run inference
252
+ sentences = [
253
+ 'Banco de tablas de madera tropical con certificado FSC con aceite de dos componentes, de dos módulos, de 3,1 m de longitud, con un respaldo de madera y con soportes de pletina de acero, colocado con fijaciones mecánicas, en entorno urbano sin dificultad de movilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, con afectación por servicios o elementos de mobiliario urbano, en actuaciones de 1 a 5 u',
254
+ 'Banco de madera tropical con certificación FSC, tratado con aceite de dos componentes, de dos secciones, con una longitud de 3,1 m, equipado con respaldo de madera y soportes de acero, instalado con fijaciones mecánicas en un entorno urbano, apto para aceras de más de 3 y hasta 5 m de ancho o calzadas de más de 7 y hasta 12 m de ancho, considerando la presencia de servicios o mobiliario urbano, en proyectos de 1 a 5 unidades.',
255
+ 'Banco de madera reciclada con tratamiento de pintura ecológica, de un solo módulo, de 2,5 m de longitud, sin respaldo y con patas de plástico, instalado en un parque rural con acceso restringido, en senderos de menos de 3 m de ancho, sin interferencias de servicios públicos o mobiliario, en proyectos de 6 a 10 unidades.',
256
+ ]
257
+ embeddings = model.encode(sentences)
258
+ print(embeddings.shape)
259
+ # [3, 1024]
260
+
261
+ # Get the similarity scores for the embeddings
262
+ similarities = model.similarity(embeddings, embeddings)
263
+ print(similarities.shape)
264
+ # [3, 3]
265
+ ```
266
+
267
+ <!--
268
+ ### Direct Usage (Transformers)
269
+
270
+ <details><summary>Click to see the direct usage in Transformers</summary>
271
+
272
+ </details>
273
+ -->
274
+
275
+ <!--
276
+ ### Downstream Usage (Sentence Transformers)
277
+
278
+ You can finetune this model on your own dataset.
279
+
280
+ <details><summary>Click to expand</summary>
281
+
282
+ </details>
283
+ -->
284
+
285
+ <!--
286
+ ### Out-of-Scope Use
287
+
288
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
289
+ -->
290
+
291
+ ## Evaluation
292
+
293
+ ### Metrics
294
+
295
+ #### Triplet
296
+ * Dataset: `validation-set`
297
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
298
+
299
+ | Metric | Value |
300
+ |:-------------------|:-----------|
301
+ | cosine_accuracy | 0.9886 |
302
+ | dot_accuracy | 0.0114 |
303
+ | manhattan_accuracy | 0.9886 |
304
+ | euclidean_accuracy | 0.9886 |
305
+ | **max_accuracy** | **0.9886** |
306
+
307
+ #### Triplet
308
+ * Dataset: `test-set`
309
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
310
+
311
+ | Metric | Value |
312
+ |:-------------------|:--------|
313
+ | cosine_accuracy | 1.0 |
314
+ | dot_accuracy | 0.0 |
315
+ | manhattan_accuracy | 0.9944 |
316
+ | euclidean_accuracy | 1.0 |
317
+ | **max_accuracy** | **1.0** |
318
+
319
+ #### Triplet
320
+ * Dataset: `test-set`
321
+ * Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
322
+
323
+ | Metric | Value |
324
+ |:-------------------|:--------|
325
+ | cosine_accuracy | 1.0 |
326
+ | dot_accuracy | 0.0 |
327
+ | manhattan_accuracy | 0.9944 |
328
+ | euclidean_accuracy | 1.0 |
329
+ | **max_accuracy** | **1.0** |
330
+
331
+ <!--
332
+ ## Bias, Risks and Limitations
333
+
334
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
335
+ -->
336
+
337
+ <!--
338
+ ### Recommendations
339
+
340
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
341
+ -->
342
+
343
+ ## Training Details
344
+
345
+ ### Training Dataset
346
+
347
+ #### csv
348
+
349
+ * Dataset: csv
350
+ * Size: 1,765 training samples
351
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
352
+ * Approximate statistics based on the first 1000 samples:
353
+ | | anchor | positive | negative |
354
+ |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
355
+ | type | string | string | string |
356
+ | details | <ul><li>min: 13 tokens</li><li>mean: 107.33 tokens</li><li>max: 317 tokens</li></ul> | <ul><li>min: 14 tokens</li><li>mean: 102.76 tokens</li><li>max: 272 tokens</li></ul> | <ul><li>min: 14 tokens</li><li>mean: 86.3 tokens</li><li>max: 247 tokens</li></ul> |
357
+ * Samples:
358
+ | anchor | positive | negative |
359
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
360
+ | <code>Ventana de aluminio lacado blanco con rotura de puente térmico, colocada sobre premarco, con una hoja oscilobatiente, para un hueco de obra aproximado de 90x120 cm, elaborada con perfiles de precio alto, clasificación mínima 3 de permeabilidad al aire según UNE-EN 12207, clasificación mínima 8A de estanqueidad al agua según UNE-EN 12208 y clasificación mínima C4 de resistencia al viento según UNE-EN 12210, sin persiana</code> | <code>Ventana de PVC blanco con rotura de puente térmico, instalada sobre premarco, con una hoja oscilobatiente, para un hueco de obra aproximado de 90x120 cm, fabricada con perfiles de alta gama, clasificación mínima 3 de permeabilidad al aire según UNE-EN 12207, clasificación mínima 8A de estanqueidad al agua según UNE-EN 12208 y clasificación mínima C4 de resistencia al viento según UNE-EN 12210, sin persiana.</code> | <code>Puerta de madera sin tratar con marco de acero, instalada en un espacio de 80x100 cm, diseñada con un sistema de apertura tradicional, fabricada con materiales de bajo costo, sin clasificación de permeabilidad al aire, estanqueidad o resistencia al viento, con persiana integrada.</code> |
361
+ | <code>Viga de hormigón armado de canto, con encofrado para revestir, con una cuantía de 7,5 m2/m3, hormigón hormigón para armar HA - 30 / B / 10 / XC2 con una cantidad de cemento de 275 kg/m3 i relación agua cemento =< 0.6, vertido con bomba y armadura AP500 S de acero en barras corrugadas con una cuantía de 150 kg/m3</code> | <code>Viga de concreto reforzado de sección, con encofrado para acabado, con una densidad de 7,5 m2/m3, concreto HA - 30 / B / 10 / XC2 que contiene 275 kg/m3 de cemento y una relación agua-cemento menor o igual a 0.6, vertido mediante bomba y con refuerzo de acero en varillas corrugadas AP500 S con una cantidad de 150 kg/m3.</code> | <code>Viga de madera laminada de canto, con revestimiento decorativo, con una cuantía de 5 m2/m3, madera tratada para exteriores con una densidad de 500 kg/m3 y una relación de humedad =< 12%, instalada manualmente y refuerzo de fibra de vidrio con una cuantía de 100 kg/m3.</code> |
362
+ | <code>Caja modular de polipropileno de medidas 0.75x0.45x3,5 m (LxAxH) para sistema urbano drenante SUD formando una pieza prismática de medidas 7.5x2.7x3,5 m (LxAxH) y envuelto con geotextil formado por fieltro de polipropileno/polietileno no tejido ligado térmicamente de 110 a 130 g/m2, colocada sin adherir</code> | <code>Caja modular de polipropileno de dimensiones 0.75x0.45x3.5 m (LxAxH) para un sistema de drenaje urbano SUD, que se integra en una estructura prismática de 7.5x2.7x3.5 m (LxAxH) y recubierta con geotextil de fieltro de polipropileno/polietileno no tejido, con un peso de 110 a 130 g/m2, instalada sin adhesión.</code> | <code>Caja de almacenamiento de cartón reciclado de dimensiones 0.75x0.45x3.5 m (LxAxH) para uso doméstico, diseñada como un contenedor rectangular de medidas 7.5x2.7x3.5 m (LxAxH) y recubierta con papel kraft de 80 a 100 g/m2, ensamblada con pegamento.</code> |
363
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
364
+ ```json
365
+ {
366
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
367
+ "triplet_margin": 5
368
+ }
369
+ ```
370
+
371
+ ### Evaluation Dataset
372
+
373
+ #### csv
374
+
375
+ * Dataset: csv
376
+ * Size: 1,765 evaluation samples
377
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
378
+ * Approximate statistics based on the first 1000 samples:
379
+ | | anchor | positive | negative |
380
+ |:--------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
381
+ | type | string | string | string |
382
+ | details | <ul><li>min: 27 tokens</li><li>mean: 107.66 tokens</li><li>max: 299 tokens</li></ul> | <ul><li>min: 22 tokens</li><li>mean: 103.47 tokens</li><li>max: 265 tokens</li></ul> | <ul><li>min: 23 tokens</li><li>mean: 87.09 tokens</li><li>max: 237 tokens</li></ul> |
383
+ * Samples:
384
+ | anchor | positive | negative |
385
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
386
+ | <code>Pavimento de hormigón de 20 cm de espesor acabado con 5 kg/m2 de polvo de cuarzo color, con hormigón para armar HA - 30 / B / 20 / XC3 con una cantidad de cemento de 300 kg/m3 i relación agua cemento =< 0.55, colocado desde camión, extendido y vibrado manual y fratasado mecánico</code> | <code>Losas de concreto de 20 cm de grosor, terminadas con 5 kg/m2 de polvo de cuarzo de color, utilizando hormigón HA - 30 / B / 20 / XC3, con una dosificación de cemento de 300 kg/m3 y una relación agua-cemento menor o igual a 0.55, aplicadas desde camión, niveladas y compactadas manualmente, y pulidas con máquina.</code> | <code>Pavimento de asfalto de 15 cm de espesor tratado con 3 kg/m2 de colorante, utilizando mezcla bituminosa tipo AC-20 con una proporción de betún de 4% y relación agregado asfáltico =< 0.60, aplicado desde planta, extendido y compactado con rodillo vibratorio.</code> |
387
+ | <code>Alcantarilla con tubo de pared estructurada para saneamiento enterrado sin presión, de polietileno, diámetro nominal DN 1200, clase de rigidez anular SN 4 (rigidez anular 4 kN/m2), de superficies interna lisa y externa perfilada de tipo B, código de área de aplicación U, fabricación según norma UNE-EN 13476-3, unión mediante manguito extruido y junta elastomérica de estanquidad, colocado en el fondo de la zanja sobre lecho de arena de 30 cm de espesor y relleno de arena hasta 30 cm por encima del tubo, incluida la formación de una solera de 15 cm de espesor de hormigón de uso no estructural HNE-20/P/20 de resistencia a compresión 20 N/mm2, consistencia plástica y tamaño máximo del árido 20 mm, con pisón vibrante eléctrico</code> | <code>Tubería de alcantarillado de polietileno con diámetro nominal DN 1200, diseñada para saneamiento enterrado sin presión, con clase de rigidez anular SN 4, y uniones mediante manguito extruido y junta elastomérica, instalada sobre un lecho de arena de 30 cm y cubierta con arena hasta 30 cm por encima, además de una base de hormigón no estructural de 15 cm de espesor.</code> | <code>Alcantarilla con tubo de pared lisa para drenaje superficial sin presión, de PVC, diámetro nominal DN 1000, clase de rigidez anular SN 2 (rigidez anular 2 kN/m2), de superficies interna y externa lisas, código de área de aplicación T, fabricación según norma UNE-EN 1452-2, unión mediante soldadura y junta de goma, colocado en la superficie del terreno sobre una base de grava de 10 cm de espesor y relleno de tierra hasta 20 cm por encima del tubo, incluida la formación de una capa de césped de 5 cm de espesor, con riego manual.</code> |
388
+ | <code>Placa complementaria para señales de tráfico, de acero galvanizado y pintado, de 30x15 cm, acabada con lámina retrorreflectante clase RA3, fijada a la señal, en entorno urbano con dificultad de mobilidad, en aceras > 3 y <= 5 m de ancho o calzada/plataforma única > 7 y <= 12 m de ancho, sin afectación por servicios o elementos de mobiliario urbano, en actuaciones de hasta 1 u</code> | <code>Placa adicional para señales viales, fabricada en acero galvanizado y pintada, con dimensiones de 30x15 cm, recubierta con lámina retrorreflectante de clase RA3, montada sobre la señal, en áreas urbanas con limitaciones de movilidad, en aceras de más de 3 y hasta 5 m de ancho o en calzadas/plataformas únicas de más de 7 y hasta 12 m de ancho, sin interferencias de servicios o mobiliario urbano, en proyectos de hasta 1 unidad.</code> | <code>Placa de refuerzo para estructuras de soporte, fabricada en aluminio anodizado y sin recubrimiento, de 40x20 cm, diseñada para resistir condiciones climáticas extremas, instalada en áreas rurales con acceso limitado, en caminos > 5 y <= 10 m de ancho o terrenos > 10 y <= 15 m de ancho, con interferencia de servicios públicos y elementos de paisajismo, en proyectos de hasta 3 unidades.</code> |
389
+ * Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters:
390
+ ```json
391
+ {
392
+ "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
393
+ "triplet_margin": 5
394
+ }
395
+ ```
396
+
397
+ ### Training Hyperparameters
398
+ #### Non-Default Hyperparameters
399
+
400
+ - `eval_strategy`: steps
401
+ - `per_device_train_batch_size`: 6
402
+ - `per_device_eval_batch_size`: 6
403
+ - `learning_rate`: 2e-05
404
+ - `num_train_epochs`: 10
405
+ - `warmup_ratio`: 0.1
406
+ - `fp16`: True
407
+ - `batch_sampler`: no_duplicates
408
+
409
+ #### All Hyperparameters
410
+ <details><summary>Click to expand</summary>
411
+
412
+ - `overwrite_output_dir`: False
413
+ - `do_predict`: False
414
+ - `eval_strategy`: steps
415
+ - `prediction_loss_only`: True
416
+ - `per_device_train_batch_size`: 6
417
+ - `per_device_eval_batch_size`: 6
418
+ - `per_gpu_train_batch_size`: None
419
+ - `per_gpu_eval_batch_size`: None
420
+ - `gradient_accumulation_steps`: 1
421
+ - `eval_accumulation_steps`: None
422
+ - `torch_empty_cache_steps`: None
423
+ - `learning_rate`: 2e-05
424
+ - `weight_decay`: 0.0
425
+ - `adam_beta1`: 0.9
426
+ - `adam_beta2`: 0.999
427
+ - `adam_epsilon`: 1e-08
428
+ - `max_grad_norm`: 1.0
429
+ - `num_train_epochs`: 10
430
+ - `max_steps`: -1
431
+ - `lr_scheduler_type`: linear
432
+ - `lr_scheduler_kwargs`: {}
433
+ - `warmup_ratio`: 0.1
434
+ - `warmup_steps`: 0
435
+ - `log_level`: passive
436
+ - `log_level_replica`: warning
437
+ - `log_on_each_node`: True
438
+ - `logging_nan_inf_filter`: True
439
+ - `save_safetensors`: True
440
+ - `save_on_each_node`: False
441
+ - `save_only_model`: False
442
+ - `restore_callback_states_from_checkpoint`: False
443
+ - `no_cuda`: False
444
+ - `use_cpu`: False
445
+ - `use_mps_device`: False
446
+ - `seed`: 42
447
+ - `data_seed`: None
448
+ - `jit_mode_eval`: False
449
+ - `use_ipex`: False
450
+ - `bf16`: False
451
+ - `fp16`: True
452
+ - `fp16_opt_level`: O1
453
+ - `half_precision_backend`: auto
454
+ - `bf16_full_eval`: False
455
+ - `fp16_full_eval`: False
456
+ - `tf32`: None
457
+ - `local_rank`: 0
458
+ - `ddp_backend`: None
459
+ - `tpu_num_cores`: None
460
+ - `tpu_metrics_debug`: False
461
+ - `debug`: []
462
+ - `dataloader_drop_last`: False
463
+ - `dataloader_num_workers`: 0
464
+ - `dataloader_prefetch_factor`: None
465
+ - `past_index`: -1
466
+ - `disable_tqdm`: False
467
+ - `remove_unused_columns`: True
468
+ - `label_names`: None
469
+ - `load_best_model_at_end`: False
470
+ - `ignore_data_skip`: False
471
+ - `fsdp`: []
472
+ - `fsdp_min_num_params`: 0
473
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
474
+ - `fsdp_transformer_layer_cls_to_wrap`: None
475
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
476
+ - `deepspeed`: None
477
+ - `label_smoothing_factor`: 0.0
478
+ - `optim`: adamw_torch
479
+ - `optim_args`: None
480
+ - `adafactor`: False
481
+ - `group_by_length`: False
482
+ - `length_column_name`: length
483
+ - `ddp_find_unused_parameters`: None
484
+ - `ddp_bucket_cap_mb`: None
485
+ - `ddp_broadcast_buffers`: False
486
+ - `dataloader_pin_memory`: True
487
+ - `dataloader_persistent_workers`: False
488
+ - `skip_memory_metrics`: True
489
+ - `use_legacy_prediction_loop`: False
490
+ - `push_to_hub`: False
491
+ - `resume_from_checkpoint`: None
492
+ - `hub_model_id`: None
493
+ - `hub_strategy`: every_save
494
+ - `hub_private_repo`: False
495
+ - `hub_always_push`: False
496
+ - `gradient_checkpointing`: False
497
+ - `gradient_checkpointing_kwargs`: None
498
+ - `include_inputs_for_metrics`: False
499
+ - `eval_do_concat_batches`: True
500
+ - `fp16_backend`: auto
501
+ - `push_to_hub_model_id`: None
502
+ - `push_to_hub_organization`: None
503
+ - `mp_parameters`:
504
+ - `auto_find_batch_size`: False
505
+ - `full_determinism`: False
506
+ - `torchdynamo`: None
507
+ - `ray_scope`: last
508
+ - `ddp_timeout`: 1800
509
+ - `torch_compile`: False
510
+ - `torch_compile_backend`: None
511
+ - `torch_compile_mode`: None
512
+ - `dispatch_batches`: None
513
+ - `split_batches`: None
514
+ - `include_tokens_per_second`: False
515
+ - `include_num_input_tokens_seen`: False
516
+ - `neftune_noise_alpha`: None
517
+ - `optim_target_modules`: None
518
+ - `batch_eval_metrics`: False
519
+ - `eval_on_start`: False
520
+ - `eval_use_gather_object`: False
521
+ - `batch_sampler`: no_duplicates
522
+ - `multi_dataset_batch_sampler`: proportional
523
+
524
+ </details>
525
+
526
+ ### Training Logs
527
+ | Epoch | Step | Training Loss | Validation Loss | validation-set_max_accuracy | test-set_max_accuracy |
528
+ |:------:|:----:|:-------------:|:---------------:|:---------------------------:|:---------------------:|
529
+ | 0 | 0 | - | - | 0.9773 | - |
530
+ | 0.8475 | 200 | 4.1904 | 3.4566 | 1.0 | - |
531
+ | 1.6949 | 400 | 3.5286 | 3.4838 | 0.9659 | - |
532
+ | 2.5424 | 600 | 3.42 | 3.4114 | 0.9943 | - |
533
+ | 3.3898 | 800 | 3.3426 | 3.4048 | 0.9830 | - |
534
+ | 4.2373 | 1000 | 3.255 | 3.3055 | 0.9886 | - |
535
+ | 5.0847 | 1200 | 3.1994 | 3.3124 | 1.0 | - |
536
+ | 5.9322 | 1400 | 3.1468 | 3.2585 | 0.9830 | - |
537
+ | 6.7797 | 1600 | 3.1209 | 3.2398 | 0.9886 | - |
538
+ | 7.6271 | 1800 | 3.0917 | 3.2182 | 0.9886 | - |
539
+ | 8.4746 | 2000 | 3.0697 | 3.1917 | 0.9886 | - |
540
+ | 9.3220 | 2200 | 3.07 | 3.1934 | 0.9886 | - |
541
+ | 10.0 | 2360 | - | - | 0.9886 | 1.0 |
542
+
543
+
544
+ ### Framework Versions
545
+ - Python: 3.10.12
546
+ - Sentence Transformers: 3.2.0
547
+ - Transformers: 4.44.2
548
+ - PyTorch: 2.4.1+cu121
549
+ - Accelerate: 0.34.2
550
+ - Datasets: 3.0.1
551
+ - Tokenizers: 0.19.1
552
+
553
+ ## Citation
554
+
555
+ ### BibTeX
556
+
557
+ #### Sentence Transformers
558
+ ```bibtex
559
+ @inproceedings{reimers-2019-sentence-bert,
560
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
561
+ author = "Reimers, Nils and Gurevych, Iryna",
562
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
563
+ month = "11",
564
+ year = "2019",
565
+ publisher = "Association for Computational Linguistics",
566
+ url = "https://arxiv.org/abs/1908.10084",
567
+ }
568
+ ```
569
+
570
+ #### TripletLoss
571
+ ```bibtex
572
+ @misc{hermans2017defense,
573
+ title={In Defense of the Triplet Loss for Person Re-Identification},
574
+ author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
575
+ year={2017},
576
+ eprint={1703.07737},
577
+ archivePrefix={arXiv},
578
+ primaryClass={cs.CV}
579
+ }
580
+ ```
581
+
582
+ <!--
583
+ ## Glossary
584
+
585
+ *Clearly define terms in order to be accessible across audiences.*
586
+ -->
587
+
588
+ <!--
589
+ ## Model Card Authors
590
+
591
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
592
+ -->
593
+
594
+ <!--
595
+ ## Model Card Contact
596
+
597
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
598
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat/multilingual-e5-large",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.44.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.2.0",
4
+ "transformers": "4.44.2",
5
+ "pytorch": "2.4.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a7cf41b8f13f1fb6d35ce7def660681b761eb8a81b0565160304db67f5f8a0b4
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "model_max_length": 512,
50
+ "pad_token": "<pad>",
51
+ "sep_token": "</s>",
52
+ "tokenizer_class": "XLMRobertaTokenizer",
53
+ "unk_token": "<unk>"
54
+ }