|
--- |
|
tags: |
|
- sentence-transformers |
|
- sentence-similarity |
|
- feature-extraction |
|
- generated_from_trainer |
|
- dataset_size:39780811 |
|
- loss:TripletLoss |
|
base_model: DeepMount00/Italian-ModernBERT-base |
|
widget: |
|
- source_sentence: il lichen sclerosus può influenzare l'ano? |
|
sentences: |
|
- 1 HSV 1 di solito provoca l'herpes sulla bocca. 2 Le persone con il virus possono |
|
avere herpes labiale o bolle di febbre sulla bocca. 3 L'HSV 1 può diffondersi |
|
ai genitali durante il sesso orale.4 L'HSV2 di solito causa l'herpes intorno ai |
|
genitali o all'ano. 5 Le persone con questo virus possono avere piaghe o vesciche |
|
intorno ai genitali o all'ano. L'HSV 1 può essere diffuso ai genitali durante |
|
il sesso orale. 2 L'HSV2 di solito causa l'herpes intorno ai genitali o all'ano. |
|
3 Le persone con questo virus possono avere piaghe o vesciche intorno ai genitali |
|
o all'ano. |
|
- 4a edizione del Delray Beach Wine & Seafood Festival 7 e 8 novembre Giunto alla |
|
sua quarta edizione, il Delray Beach Wine & Seafood Festival 2015 offre ai visitatori |
|
l'opportunità di passeggiare per le strade fiancheggiate da palme di Delray sorseggiando |
|
un ottimo bicchiere di vino o un piatto di prelibatezze frutti di mare. |
|
- Il lichen sclerosus può colpire la pelle in qualsiasi parte del corpo. Ma più |
|
spesso coinvolge la pelle della vulva, il prepuzio del pene o la pelle intorno |
|
all'ano. Chiunque può contrarre il lichen sclerosus, ma le donne in postmenopausa |
|
hanno un rischio elevato. A volte il lichen sclerosus migliora da solo e non avrai |
|
bisogno di alcun trattamento. Il ichen sclerosus può colpire la pelle in qualsiasi |
|
parte del corpo. Ma più spesso coinvolge la pelle della vulva, il prepuzio del |
|
pene o la pelle intorno all'ano. Chiunque può contrarre il lichen sclerosus, ma |
|
le donne in postmenopausa hanno un rischio elevato. |
|
- source_sentence: quanto tempo grigliare una patata al forno? |
|
sentences: |
|
- 'Da g, grammo a lb, quantità di libbre. Quantità: 1 g, grammo di Patata dolce, |
|
cotta, al forno con la buccia, senza sale. Equivale a: 0.0022 di libbre, libbra |
|
di patate dolci, cotte, al forno con la pelle, senza sale. TOGGLE: da lb, pound |
|
a g, quantità in grammi al contrario. Inserisci un nuovo valore g, grammo da cui |
|
convertire.' |
|
- USA / Florida / Minneola / Mondo / USA / Florida / Minneola World / Stati Uniti |
|
/ Florida. lago Aggiungi categoria. È a forma di fagiolo e raggiunge una profondità |
|
di 26 piedi vicino alla costa di Clermont. lakewatch.ifas.ufl.edu/RevisedMaps05/LakeMaps/MinneolaL... |
|
96 piedi sopra il livello del mare. |
|
- Grigliare le patate al forno intere richiede 30-45 minuti al cartoccio sulla griglia, |
|
se le patate sono intere. Se hai poco tempo, sbollenta le patate per 10 minuti |
|
prima di metterle sulla griglia o nel microonde per 3 minuti per lato e dovrai |
|
solo grigliare le patate al forno per 5-10 minuti. Verifica se le patate sono |
|
cotte correttamente frugando con uno stuzzicadenti. Grigliare le patate al forno |
|
che sono state tagliate a fette o a spicchi richiede solo 5-10 minuti sulla griglia |
|
a fuoco medio, a seconda dello spessore dei pezzi di patate. Per vedere se le |
|
patate sono cotte correttamente, picchiettandole con uno stuzzicadenti. Grigliare |
|
le patate al forno tagliate a fette o a spicchi richiede solo 5-10 minuti sulla |
|
griglia a fuoco medio, a seconda dello spessore dei pezzi di patate. |
|
- source_sentence: cosa sono le razze prepotenti? |
|
sentences: |
|
- Le razze Bully (Staffordshire Bull Terrier, American Staffordshire Terrier e American |
|
Pit Bull Terrier) sono un gruppo di tre razze spesso conosciute collettivamente |
|
come Pit Bull, ma molti allevatori di Staffordshire Bull Terrier e American Staffordshire |
|
Terrier disprezzano notevolmente questo termine. le razze iniziarono nel 1835. |
|
In quell'anno, il Parlamento britannico approvò il Cruelty to Animals Act. Questo |
|
atto ha vietato due degli sport più popolari in Inghilterra, Bear Baiting e Bull |
|
Baiting; sport di sangue che opponevano mastini contro orsi e bulldog contro tori, |
|
spesso in combattimenti all'ultimo sangue. |
|
- diritto distributivo. (matematica). Una regola che stabilisce come devono comportarsi |
|
l'una rispetto all'altra due operazioni binarie su un insieme; in particolare, |
|
se +, ° sono due di tali operazioni allora ° distribuisce su + |
|
significa a ° (b + c) = (a ° b) + (a ° c) per tutti gli |
|
a,b,c nell'insieme.1 Facebook. 2 Twitter.legge distributiva. (matematica). Una |
|
regola che stabilisce come devono comportarsi l'una rispetto all'altra due operazioni |
|
binarie su un insieme; in particolare, se +, ° sono due di tali operazioni |
|
allora ° distribuisce su + significa a ° (b + c) = (a ° |
|
b) + (a ° c) per tutti gli a,b,c dell'insieme. 1 Facebook. |
|
- Contare le pecore. Razze ovine. È difficile sapere quante razze di pecore ci siano |
|
nel mondo, poiché solo i paesi sviluppati di solito mantengono registri di razza. |
|
Tuttavia, si ritiene che esistano più razze ovine che razze di qualsiasi altra |
|
specie di bestiame, ad eccezione del pollame. In tutto il mondo, si stima che |
|
ci siano più di 1000 razze ovine distinte. Ci sono più di 50 razze solo negli |
|
Stati Uniti. |
|
- source_sentence: cos'è il documento sull'architettura del software? |
|
sentences: |
|
- 'Migliora le funzioni renali: poiché il cavolo può aiutare a mantenere sotto controllo |
|
il livello di zucchero nel sangue, aiuta anche a mantenere le funzioni renali. |
|
Quando un diabetico ha livelli di zucchero nel sangue estremamente alti (oltre |
|
600 mg/dl), i reni cercano di eliminare lo zucchero nel sangue in eccesso eliminandolo |
|
attraverso l''urina.' |
|
- Questo documento descrive in dettaglio quali versioni di IBM JDK sono supportate |
|
in ogni versione e release del sistema operativo IBM i. Ambiente. Risolvere il |
|
problema. Per ulteriori spiegazioni sui JDK IBM i e su come utilizzarli nell'ambiente |
|
del server IBM i, fare riferimento al seguente documento tecnico del software |
|
IBM. |
|
- Il Software Architecture Document (SAD) fornisce una panoramica completa dell'architettura |
|
dell'Online Catering Service 1.0 offerto da Yummy Inc. Presenta una serie di diverse |
|
visualizzazioni dell'architettura per rappresentare i diversi aspetti del sistema. |
|
- source_sentence: qual è il più grande il mare o l'oceano |
|
sentences: |
|
- L'Oceano Pacifico è il più grande dei cinque oceani del mondo, seguito dall'Oceano |
|
Atlantico, dall'Oceano Indiano, dall'Oceano Meridionale e dall'Oceano Artico. |
|
Copre un'area di circa 155 milioni di chilometri quadrati (circa 60 milioni di |
|
miglia quadrate). L'Oceano Pacifico è il più grande dei cinque oceani del mondo, |
|
seguito dall'Oceano Atlantico e dall'Oceano Indiano , Oceano Meridionale e Oceano |
|
Artico. Copre un'area di circa 155 milioni di chilometri quadrati (circa 60 milioni |
|
di miglia quadrate). |
|
- Il tamarino leone d'oro è dichiarato specie in pericolo di estinzione dall'Unione |
|
internazionale per la conservazione della natura a causa della drastica deforestazione |
|
del suo habitat naturale. A causa di... Il tamarino leone d'oro è dichiarato specie |
|
in pericolo di estinzione dall'Unione internazionale per la conservazione della |
|
natura a causa della drastica deforestazione del suo habitat naturale. |
|
- Il fiume Chang Jiang, o fiume Yangtze, sfocia nel mare della Cina orientale. Questo |
|
mare è una parte dell'Oceano Indiano vicino all'Asia. 3 persone l'hanno trovato |
|
utile. Modificare. |
|
pipeline_tag: sentence-similarity |
|
library_name: sentence-transformers |
|
metrics: |
|
- cosine_accuracy |
|
model-index: |
|
- name: SentenceTransformer based on DeepMount00/Italian-ModernBERT-base |
|
results: |
|
- task: |
|
type: triplet |
|
name: Triplet |
|
dataset: |
|
name: mmarco dev |
|
type: mmarco_dev |
|
metrics: |
|
- type: cosine_accuracy |
|
value: 0.9089999794960022 |
|
name: Cosine Accuracy on Dev |
|
- type: cosine_accuracy |
|
value: 0.9210000038146973 |
|
name: Cosine Accuracy on Test |
|
--- |
|
|
|
<br> |
|
|
|
 |
|
|
|
<br> |
|
|
|
# Italian-ModernBERT-base-embed-mmarco-triplet |
|
|
|
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [DeepMount00/Italian-ModernBERT-base](https://huggingface.co/DeepMount00/Italian-ModernBERT-base) on the mmarco dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. |
|
|
|
## Model Details |
|
|
|
### Model Description |
|
- **Model Type:** Sentence Transformer |
|
- **Base model:** [DeepMount00/Italian-ModernBERT-base](https://huggingface.co/DeepMount00/Italian-ModernBERT-base) <!-- at revision 34324c2191a0209b17c8cd27dbf2f4f9d2821189 --> |
|
- **Maximum Sequence Length:** 8192 tokens |
|
- **Output Dimensionality:** 768 dimensions |
|
- **Similarity Function:** Cosine Similarity |
|
- **Training Dataset:** |
|
- mmarco |
|
<!-- - **Language:** Unknown --> |
|
<!-- - **License:** Unknown --> |
|
|
|
### Model Sources |
|
|
|
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net) |
|
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) |
|
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) |
|
|
|
### Full Model Architecture |
|
|
|
``` |
|
SentenceTransformer( |
|
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel |
|
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) |
|
) |
|
``` |
|
|
|
## Usage |
|
|
|
### Direct Usage (Sentence Transformers) |
|
|
|
First install the Sentence Transformers library: |
|
|
|
```bash |
|
pip install -U sentence-transformers |
|
``` |
|
|
|
Then you can load this model and run inference. |
|
```python |
|
from sentence_transformers import SentenceTransformer |
|
|
|
# Download from the 🤗 Hub |
|
model = SentenceTransformer("Italian-ModernBERT-base-embed-mmarco-triplet") |
|
# Run inference |
|
sentences = [ |
|
"qual è il più grande il mare o l'oceano", |
|
"L'Oceano Pacifico è il più grande dei cinque oceani del mondo, seguito dall'Oceano Atlantico, dall'Oceano Indiano, dall'Oceano Meridionale e dall'Oceano Artico. Copre un'area di circa 155 milioni di chilometri quadrati (circa 60 milioni di miglia quadrate). L'Oceano Pacifico è il più grande dei cinque oceani del mondo, seguito dall'Oceano Atlantico e dall'Oceano Indiano , Oceano Meridionale e Oceano Artico. Copre un'area di circa 155 milioni di chilometri quadrati (circa 60 milioni di miglia quadrate).", |
|
"Il fiume Chang Jiang, o fiume Yangtze, sfocia nel mare della Cina orientale. Questo mare è una parte dell'Oceano Indiano vicino all'Asia. 3 persone l'hanno trovato utile. Modificare.", |
|
] |
|
embeddings = model.encode(sentences) |
|
print(embeddings.shape) |
|
# [3, 768] |
|
|
|
# Get the similarity scores for the embeddings |
|
similarities = model.similarity(embeddings, embeddings) |
|
print(similarities.shape) |
|
# [3, 3] |
|
``` |
|
|
|
<!-- |
|
### Direct Usage (Transformers) |
|
|
|
<details><summary>Click to see the direct usage in Transformers</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Downstream Usage (Sentence Transformers) |
|
|
|
You can finetune this model on your own dataset. |
|
|
|
<details><summary>Click to expand</summary> |
|
|
|
</details> |
|
--> |
|
|
|
<!-- |
|
### Out-of-Scope Use |
|
|
|
*List how the model may foreseeably be misused and address what users ought not to do with the model.* |
|
--> |
|
|
|
## Evaluation |
|
|
|
### Metrics |
|
|
|
#### Triplet |
|
|
|
* Dataset: `mmarco_dev` |
|
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator) |
|
|
|
| Metric | Value | |
|
|:--------------------|:----------| |
|
| **cosine_accuracy** | **0.909** | |
|
|
|
#### Triplet |
|
|
|
* Dataset: `mmarco_test` |
|
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator) |
|
|
|
| Metric | Value | |
|
|:--------------------|:----------| |
|
| **cosine_accuracy** | **0.921** | |
|
|
|
<!-- |
|
## Bias, Risks and Limitations |
|
|
|
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.* |
|
--> |
|
|
|
<!-- |
|
### Recommendations |
|
|
|
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.* |
|
--> |
|
|
|
## Training Details |
|
|
|
### Training Dataset |
|
|
|
#### mmarco |
|
|
|
* Dataset: mmarco |
|
* Total Size: 39,780,811 |
|
* Size: 50,000 training samples |
|
* Columns: <code>query</code>, <code>positive</code>, and <code>negative</code> |
|
* Approximate statistics based on the first 1000 samples: |
|
| | query | positive | negative | |
|
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------| |
|
| type | string | string | string | |
|
| details | <ul><li>min: 4 tokens</li><li>mean: 10.91 tokens</li><li>max: 24 tokens</li></ul> | <ul><li>min: 22 tokens</li><li>mean: 92.84 tokens</li><li>max: 276 tokens</li></ul> | <ul><li>min: 19 tokens</li><li>mean: 88.55 tokens</li><li>max: 242 tokens</li></ul> | |
|
* Samples: |
|
| query | positive | negative | |
|
|:----------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| |
|
| <code>chi suona è granger su ncis la</code> | <code>Firmato per un ruolo ricorrente in NCIS: Los Angeles come assistente del direttore del servizio investigativo criminale navale Owen Granger, Ferrer è stato promosso a personaggio regolare per la quinta stagione il 6 febbraio 2013. È anche apparso nel film del 2013 Iron Man 3 come il vice. -Presidente.</code> | <code>NCIS: L'agente Abigail Borin di CGIS (Coast Guard Investigative Service) è interpretata da Diane Neal, che ha anche interpretato ADA Casey Novak in Law and Order, SVU. L'agente Borin è simile nello stile di comando e nel temperamento all'agente speciale Leroy Jethro Gibbs dell'NCIS.</code> | |
|
| <code>come si chiama la strada principale di hershey pa?</code> | <code>Chocolate Avenue è una strada di Hershey, in Pennsylvania, che passa davanti all'originale Hershey's Chocolate Factory ed è considerata la strada principale della città.</code> | <code>Milton S. Hershey è nato il 13 settembre 1857 da Henry e Veronica Fanny Snavely Hershey. La sua famiglia erano membri della comunità mennonita della Pennsylvania. I suoi antenati erano svizzeri e tedeschi e si erano stabiliti in Pennsylvania nei primi anni del 1700. Crebbe parlando l'olandese della Pennsylvania. ilton S. Hershey nacque il 13 settembre 1857 da Henry e Veronica Fanny Snavely Hershey. La sua famiglia erano membri della comunità mennonita della Pennsylvania. I suoi antenati erano svizzeri e tedeschi e si erano stabiliti in Pennsylvania nei primi anni del 1700. È cresciuto parlando l'olandese della Pennsylvania.</code> | |
|
| <code>definizione di dissoluzione in geologia</code> | <code>Rocce solubili (dissoluzione) Sinkhole; mentre l'acqua filtra attraverso le rocce sopra, il sale inizia a dissolversi e le rocce sopra cadono a formare una dolina. La dissoluzione del suolo si verifica quando l'acqua che passa attraverso rocce solubili produce cavità sotterranee e sistemi di grotte. Tali cavità riducono l'appoggio al terreno sovrastante e possono provocare cedimenti localizzati delle rocce e dei depositi sovrastanti.</code> | <code>Per porre fine all'esistenza di una società o LLC, un'entità deve presentare gli articoli di scioglimento o altra forma di scioglimento o annullamento dei documenti con il Segretario di Stato. I requisiti variano in base alla giurisdizione.</code> | |
|
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters: |
|
```json |
|
{ |
|
"distance_metric": "TripletDistanceMetric.EUCLIDEAN", |
|
"triplet_margin": 5 |
|
} |
|
``` |
|
|
|
### Evaluation Dataset |
|
|
|
#### mmarco |
|
|
|
* Dataset: mmarco |
|
* Size: 2,000 evaluation samples |
|
* Columns: <code>query</code>, <code>positive</code>, and <code>negative</code> |
|
* Approximate statistics based on the first 1000 samples: |
|
| | query | positive | negative | |
|
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------| |
|
| type | string | string | string | |
|
| details | <ul><li>min: 4 tokens</li><li>mean: 11.25 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 15 tokens</li><li>mean: 94.27 tokens</li><li>max: 309 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 90.05 tokens</li><li>max: 305 tokens</li></ul> | |
|
* Samples: |
|
| query | positive | negative | |
|
|:------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| |
|
| <code>significato del tatuaggio del drago e del lupo</code> | <code>Wolf Tattoo: significati e disegni. Il tatuaggio del lupo è un ottimo modo per mostrare lealtà e devozione alla famiglia. Alcune persone hanno il loro intero branco di persone care inchiostrate o si fanno tatuare una sola zampa di lupo e hanno i nomi dei propri cari inchiostrati all'interno del disegno. Il tatuaggio del lupo può anche rappresentare l'amore.</code> | <code>Qual è il significato di Apocalisse capitolo 12? Di cosa parla Apocalisse 12? Chi sono la donna, il bambino e il drago descritti in Apocalisse capitolo 12? Qual è il significato di Apocalisse capitolo 12? Apocalisse capitolo 12 contiene una descrizione di una donna, che è vestita di sole, con la luna sotto i suoi piedi e una corona di dodici stelle in cima alla sua testa. La donna è incinta e sta per partorire. È inseguita da un grande drago rosso, la cui coda ha spazzato via un terzo delle stelle dal cielo e le ha gettate sulla terra.</code> | |
|
| <code>cosa significa amianto friabile</code> | <code>L'amianto friabile si riferisce a qualsiasi tipo di amianto fragile che può sgretolarsi con poca forza o pressione. Qualsiasi materiale che può essere frantumato con le mani e contiene amianto è considerato amianto friabile e deve essere rimosso.</code> | <code>Il prezzo del test dell'aria dell'amianto di solito varia a seconda del tipo e del numero di test richiesti, dovresti ottenere stime specifiche per il tuo lavoro e dovrebbero essere inclusi nel calcolo di quanto costa rimuovere l'amianto. Ottieni ulteriori informazioni sui costi dei test dell'aria dell'amianto.</code> | |
|
| <code>che ha giocato a lois lane in superman</code> | <code>Noel Neill. Noel Darleen Neill (25 novembre 1920  3 luglio 2016) è stata un'attrice statunitense. È nota per aver interpretato Lois Lane nei serial cinematografici Superman (1948) e Atom Man vs. Superman (1950), nonché nella serie televisiva degli anni '50 Adventures of Superman. È apparsa in 80 film e serie televisive nella sua carriera.</code> | <code>esiste ed è un supplente di . Wonder Woman è un classico supereroe della DC Comics. Condivide la sua eredità con personaggi del calibro di Superman, Batman e Flash. Wonder Woman è un classico supereroe della DC Comics. Condivide la sua eredità con personaggi del calibro di Superman, Batman e Flash.</code> | |
|
* Loss: [<code>TripletLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters: |
|
```json |
|
{ |
|
"distance_metric": "TripletDistanceMetric.EUCLIDEAN", |
|
"triplet_margin": 5 |
|
} |
|
``` |
|
|
|
### Training Hyperparameters |
|
#### Non-Default Hyperparameters |
|
|
|
- `eval_strategy`: steps |
|
- `per_device_train_batch_size`: 16 |
|
- `per_device_eval_batch_size`: 16 |
|
- `learning_rate`: 2e-05 |
|
- `num_train_epochs`: 1 |
|
- `warmup_ratio`: 0.1 |
|
- `fp16`: True |
|
- `load_best_model_at_end`: True |
|
- `batch_sampler`: no_duplicates |
|
|
|
#### All Hyperparameters |
|
<details><summary>Click to expand</summary> |
|
|
|
- `overwrite_output_dir`: False |
|
- `do_predict`: False |
|
- `eval_strategy`: steps |
|
- `prediction_loss_only`: True |
|
- `per_device_train_batch_size`: 16 |
|
- `per_device_eval_batch_size`: 16 |
|
- `per_gpu_train_batch_size`: None |
|
- `per_gpu_eval_batch_size`: None |
|
- `gradient_accumulation_steps`: 1 |
|
- `eval_accumulation_steps`: None |
|
- `torch_empty_cache_steps`: None |
|
- `learning_rate`: 2e-05 |
|
- `weight_decay`: 0.0 |
|
- `adam_beta1`: 0.9 |
|
- `adam_beta2`: 0.999 |
|
- `adam_epsilon`: 1e-08 |
|
- `max_grad_norm`: 1.0 |
|
- `num_train_epochs`: 1 |
|
- `max_steps`: -1 |
|
- `lr_scheduler_type`: linear |
|
- `lr_scheduler_kwargs`: {} |
|
- `warmup_ratio`: 0.1 |
|
- `warmup_steps`: 0 |
|
- `log_level`: passive |
|
- `log_level_replica`: warning |
|
- `log_on_each_node`: True |
|
- `logging_nan_inf_filter`: True |
|
- `save_safetensors`: True |
|
- `save_on_each_node`: False |
|
- `save_only_model`: False |
|
- `restore_callback_states_from_checkpoint`: False |
|
- `no_cuda`: False |
|
- `use_cpu`: False |
|
- `use_mps_device`: False |
|
- `seed`: 42 |
|
- `data_seed`: None |
|
- `jit_mode_eval`: False |
|
- `use_ipex`: False |
|
- `bf16`: False |
|
- `fp16`: True |
|
- `fp16_opt_level`: O1 |
|
- `half_precision_backend`: auto |
|
- `bf16_full_eval`: False |
|
- `fp16_full_eval`: False |
|
- `tf32`: None |
|
- `local_rank`: 0 |
|
- `ddp_backend`: None |
|
- `tpu_num_cores`: None |
|
- `tpu_metrics_debug`: False |
|
- `debug`: [] |
|
- `dataloader_drop_last`: False |
|
- `dataloader_num_workers`: 0 |
|
- `dataloader_prefetch_factor`: None |
|
- `past_index`: -1 |
|
- `disable_tqdm`: False |
|
- `remove_unused_columns`: True |
|
- `label_names`: None |
|
- `load_best_model_at_end`: True |
|
- `ignore_data_skip`: False |
|
- `fsdp`: [] |
|
- `fsdp_min_num_params`: 0 |
|
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} |
|
- `tp_size`: 0 |
|
- `fsdp_transformer_layer_cls_to_wrap`: None |
|
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} |
|
- `deepspeed`: None |
|
- `label_smoothing_factor`: 0.0 |
|
- `optim`: adamw_torch |
|
- `optim_args`: None |
|
- `adafactor`: False |
|
- `group_by_length`: False |
|
- `length_column_name`: length |
|
- `ddp_find_unused_parameters`: None |
|
- `ddp_bucket_cap_mb`: None |
|
- `ddp_broadcast_buffers`: False |
|
- `dataloader_pin_memory`: True |
|
- `dataloader_persistent_workers`: False |
|
- `skip_memory_metrics`: True |
|
- `use_legacy_prediction_loop`: False |
|
- `push_to_hub`: False |
|
- `resume_from_checkpoint`: None |
|
- `hub_model_id`: None |
|
- `hub_strategy`: every_save |
|
- `hub_private_repo`: None |
|
- `hub_always_push`: False |
|
- `gradient_checkpointing`: False |
|
- `gradient_checkpointing_kwargs`: None |
|
- `include_inputs_for_metrics`: False |
|
- `include_for_metrics`: [] |
|
- `eval_do_concat_batches`: True |
|
- `fp16_backend`: auto |
|
- `push_to_hub_model_id`: None |
|
- `push_to_hub_organization`: None |
|
- `mp_parameters`: |
|
- `auto_find_batch_size`: False |
|
- `full_determinism`: False |
|
- `torchdynamo`: None |
|
- `ray_scope`: last |
|
- `ddp_timeout`: 1800 |
|
- `torch_compile`: False |
|
- `torch_compile_backend`: None |
|
- `torch_compile_mode`: None |
|
- `dispatch_batches`: None |
|
- `split_batches`: None |
|
- `include_tokens_per_second`: False |
|
- `include_num_input_tokens_seen`: False |
|
- `neftune_noise_alpha`: None |
|
- `optim_target_modules`: None |
|
- `batch_eval_metrics`: False |
|
- `eval_on_start`: False |
|
- `use_liger_kernel`: False |
|
- `eval_use_gather_object`: False |
|
- `average_tokens_across_devices`: False |
|
- `prompts`: None |
|
- `batch_sampler`: no_duplicates |
|
- `multi_dataset_batch_sampler`: proportional |
|
|
|
</details> |
|
|
|
### Training Logs |
|
| Epoch | Step | Training Loss | Validation Loss | mmarco_dev_cosine_accuracy | |
|
|:-------:|:--------:|:-------------:|:---------------:|:--------------------------:| |
|
| -1 | -1 | - | - | 0.6285 | |
|
| 0.08 | 250 | 1.8669 | 2.4032 | 0.7960 | |
|
| 0.16 | 500 | 1.793 | 1.6328 | 0.8600 | |
|
| 0.24 | 750 | 1.4301 | 1.3971 | 0.8930 | |
|
| 0.32 | 1000 | 1.3361 | 1.2686 | 0.8955 | |
|
| **0.4** | **1250** | **1.237** | **1.2151** | **0.909** | |
|
|
|
## Test Logs |
|
| Epoch | Step | Training Loss | Validation Loss | mmarco_dev_cosine_accuracy | |
|
|:-------:|:--------:|:-------------:|:---------------:|:--------------------------:| |
|
| -1 | -1 | - | - | 0.9210 | |
|
|
|
* The bold row denotes the saved checkpoint. |
|
|
|
### Framework Versions |
|
- Python: 3.11.11 |
|
- Sentence Transformers: 3.5.0.dev0 |
|
- Transformers: 4.50.0.dev0 |
|
- PyTorch: 2.5.1+cu124 |
|
- Accelerate: 1.3.0 |
|
- Datasets: 3.3.2 |
|
- Tokenizers: 0.21.0 |
|
|
|
## Citation |
|
|
|
### BibTeX |
|
|
|
#### Sentence Transformers |
|
```bibtex |
|
@inproceedings{reimers-2019-sentence-bert, |
|
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", |
|
author = "Reimers, Nils and Gurevych, Iryna", |
|
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", |
|
month = "11", |
|
year = "2019", |
|
publisher = "Association for Computational Linguistics", |
|
url = "https://arxiv.org/abs/1908.10084", |
|
} |
|
``` |
|
|
|
#### TripletLoss |
|
```bibtex |
|
@misc{hermans2017defense, |
|
title={In Defense of the Triplet Loss for Person Re-Identification}, |
|
author={Alexander Hermans and Lucas Beyer and Bastian Leibe}, |
|
year={2017}, |
|
eprint={1703.07737}, |
|
archivePrefix={arXiv}, |
|
primaryClass={cs.CV} |
|
} |
|
``` |
|
|
|
<!-- |
|
## Glossary |
|
|
|
*Clearly define terms in order to be accessible across audiences.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Authors |
|
|
|
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.* |
|
--> |
|
|
|
<!-- |
|
## Model Card Contact |
|
|
|
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.* |
|
--> |