SentenceTransformer based on Almawave/Velvet-2B

This is a sentence-transformers model finetuned from Almawave/Velvet-2B on the news, autonlp-data-Ita-Summarization, wikipediaQA-ita, QA-ita-200k and change-it datasets. It maps sentences & paragraphs to a 2048-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 32768, 'do_lower_case': False}) with Transformer model: MistralModel 
  (1): Pooling({'word_embedding_dimension': 2048, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("ancc/Velvet-2B-Embedding-1404")
# Run inference
sentences = [
    'Quali record nazionali ha raggiunto Lisa Gelius nei 80 metri ostacoli?',
    'Lisa Gelius\n\n\nBiografia \nNel 1930 vinse una medaglia d\'oro, una d\'argento e una di bronzo ai Giochi mondiali femminili di Praga, rispettivamente nella staffetta 4×100 metri, 60 metri piani e 100 metri piani. Quattro anni dopo fu medaglia d\'oro nel lancio del giavellotto ai Giochi mondiali femminili di Londra.\n\nNel 1938 divenne la prima campionessa europea del lancio del giavellotto e fu medaglia d\'argento negli 80 metri ostacoli ai campionati europei di atletica leggera di Vienna.\n\nRecord nazionali \n 80 metri ostacoli: 11"6  ( Braslaŭ, 30 luglio 1938)\n\nPalmarès\n\nVoci correlate \n Progressione del record mondiale degli 80 metri ostacoli\n\nCollegamenti esterni',
    "3045 Alois\n3045 Alois è un asteroide della fascia principale. Scoperto nel 1984, presenta un'orbita caratterizzata da un semiasse maggiore pari a 3,1275527\xa0UA e da un'eccentricità di 0,1166606, inclinata di 3,34507° rispetto all'eclittica.\n\nCollegamenti esterni \n\nCorpi celesti scoperti nel 1984\nAlois",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 2048]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Datasets

news

news

  • Dataset: news
  • Size: 327,805 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 19.64 tokens
    • max: 48 tokens
    • min: 5 tokens
    • mean: 19.5 tokens
    • max: 43 tokens
  • Samples:
    anchor positive
    Papilloma virus e Giornata mondiale della Donna, screening gratuiti per la prevenzione Papilloma virus: ancora poco sfruttato in Italia il vaccino anti-Hpv, infezione che si trasmette sessualmente e provoca diversi tumori
    Papilloma virus e Giornata mondiale della Donna, screening gratuiti per la prevenzione Lanzarin, Veneto attento alla prevenzione dal Papillomavirus
    Papilloma virus e Giornata mondiale della Donna, screening gratuiti per la prevenzione Dalle verruche ai condilomi ai tumori: HPV il virus molto comune che può diventare pericoloso
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            2048,
            1024,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
autonlp-data-Ita-Summarization

autonlp-data-Ita-Summarization

  • Dataset: autonlp-data-Ita-Summarization at 8ef509f
  • Size: 64,012 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 27 tokens
    • mean: 190.72 tokens
    • max: 256 tokens
    • min: 7 tokens
    • mean: 29.49 tokens
    • max: 79 tokens
  • Samples:
    anchor positive
    Lo STB pagherà una multa di 340 milioni di dollari e accetterà che venga effettuato un monitoraggio permanente delle transazioni nella sua filiale a New York. La settimana scorsa i regolatori dello stato di New York hanno accusato la STB di nascondere miliardi di dollari in transazioni con l'Iran, penalizzate dalla legge statunitense. La banca ha accettato che alcune transazioni violassero il regime di sanzioni che Washington ha imposto a Teheran, anche se discute il numero di loro e l'importo coinvolto. Anche se le operazioni dello STB si concentrano sull'Asia, ha bisogno di mantenere una rappresentanza negli Stati Uniti per le sue operazioni internazionali. Altre notizie Filtrano foto intime di Kim Kardashian È tempo di dire addio all'email? Le misteriose esplosioni che scuotono le strade di Londra Come rendere virale la moda: Justin Bieber con pochi vestiti La banca britannica Standard Chartered (STB) ha raggiunto un accordo con i regolatori finanziari di New York che le permetterà di mantenere le sue operazioni nello stato, chiave per il sistema bancario internazionale.
    Yishai Schlissel, 40 anni, sta scontando l'ergastolo per aver ucciso una ragazza di 16 anni e accoltellato altre persone alla sfilata del 2015. Il fratello Michael è stato arrestato mercoledì e altri membri della famiglia sono stati fermati brevemente prima della sfilata, dicono i media israeliani. Le notizie del sospetto complotto sono arrivate ore prima dell'inizio della marcia di quest'anno. I media israeliani hanno detto che centinaia di poliziotti saranno in servizio per garantire la sua morte pacifica. Schlissel ha pugnalato sei persone durante la marcia del 2015. Uno di loro, Shira Banki, è morto in ospedale. Ha detto che aveva fatto la volontà di Dio quando ha pugnalato le sue vittime. All'epoca aveva appena terminato un periodo di 10 anni per un attacco simile nel 2005. Alla condanna del mese scorso la corte ha criticato la polizia, dicendo che avevano saputo che Schlissel aveva presentato il pericolo ma non ha agito correttamente. L'evento Gay Pride a Gerusalemme è stata a lu... La polizia israeliana ha accusato un ebreo ultra ortodosso anti-gay carcerato di aver pianificato un altro attacco all'annuale marcia del Gay Pride di Gerusalemme dalla sua cella.
    Nelle ultime 24 ore in Italia sono stati rilevati 5.193 casi positivi da coronavirus e 57 morti a causa della COVID-19. Attualmente i ricoverati sono 4.664 (48 in meno di ieri), di cui 547 nei reparti di terapia intensiva (1 La storia di uno dei delitti più noti e violenti degli anni Settanta, al centro del film tratto da “La scuola cattolica” di Edoardo Albinati “Un atto doveroso”. Fare Futuro spiega il voto dei finiani sulla retroattività del lodo Alfano.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            2048,
            1024,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
wikipediaQA-ita

wikipediaQA-ita

  • Dataset: wikipediaQA-ita at 2b6bf8f
  • Size: 105,480 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 5 tokens
    • mean: 13.5 tokens
    • max: 35 tokens
    • min: 11 tokens
    • mean: 120.08 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Cosa è un organo a pompa? Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria
    In quale famiglia di aerofoni ad ancia libera rientra l'organo a pompa? Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria
    Ci sono due tipi di organi a pompa: l'organo ad aria compressa e l'organo ad aria aspirata. Quali sono i nomi comuni di questi due tipi di organi? Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            2048,
            1024,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
QA-ita-200k

QA-ita-200k

  • Dataset: QA-ita-200k at 9c81a42
  • Size: 225,953 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 7 tokens
    • mean: 17.48 tokens
    • max: 47 tokens
    • min: 9 tokens
    • mean: 121.62 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    In quale stato del Brasile si trova il comune di Juruá? Juruá
    Juruá è un comune del Brasile nello Stato dell'Amazonas, parte della mesoregione di Sudoeste Amazonense e della microregione di Juruá.

    Note

    Altri progetti

    Comuni dell'Amazonas (Brasile)
    Quali sono le posizioni geografiche mesoregionale e microregionale in cui si trova il comune di Juruá? Juruá
    Juruá è un comune del Brasile nello Stato dell'Amazonas, parte della mesoregione di Sudoeste Amazonense e della microregione di Juruá.

    Note

    Altri progetti

    Comuni dell'Amazonas (Brasile)
    Luca Blasetti ha giocato per quale squadra durante la sua prima stagione in massima serie? Luca Blasetti


    Carriera
    Blasetti è cresciuto nelle giovanili della Sebastiani Rieti, squadra della propria città natale. Ha esordito in massima serie nella stagione 1976-77; dopo una stagione in prestito alla Minervini nel 1978-79, è ritornato alla Sebastiani.

    Nel 1982 viene convocato in Nazionale dal coach Alessandro Gamba, per la sfida contro una selezione di All Stars del campionato italiano. Sarà la sua unica presenza in azzurro; mise a referto 8 punti.

    Nel 1984 ha deciso a sorpresa di abbandonare l'attività agonistica, e di ritirarsi in un convento dei frati francescani per prendere i voti. Ha vissuto in convento quattro anni, e successivamente ha deciso di abbandonare l'Ordine.

    Tra il 2007 ed il 2009 ha disputato il campionato italiano di pallacanestro in carrozzina da normodotato, nella società A Ruota Libera, in Serie B.

    Palmarès

    Sebastiani Rieti: 1979-80

    Bibliografia

    Collegamenti esterni

    Cestisti della Nazionale italiana
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            2048,
            1024,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    
change-it

change-it

  • Dataset: change-it at df900d3
  • Size: 17,807 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 3 tokens
    • mean: 15.14 tokens
    • max: 29 tokens
    • min: 9 tokens
    • mean: 193.08 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Cile, arrivata la prima "capsula" che salverà i minatori dall'incubo Copiapo - La capsula di metallo, che riporterà in superficie i 33 minatori intrappolati in Cile, è arrivata sul posto. La cassa cilindrica, la prima delle tre costruite dai cantieri navali della Marina Militare cilena, ha 55-60 cm di diametro e una porta grigliata per l’accesso del minatore. Il salvataggio, che comincerà al più presto ai primi di novembre, durerà almeno un’ora e mezza per ciascun minatore. Intanto il governo ha fatto sapere che, prima di riportare in superficie gli operai, saranno calati all’intErno della miniera almeno due persone, un medico e un infermiere, per preparare i minatori al ritorno alla luce.
    Bomba a Bangkok, il sospettato: "Ho dato uno zainetto all'attentatore" Il principale sospettato per l'attentato dello scorso 17 agosto al santuario Erawan di Bangkok ha detto di aver consegnato uno zainetto all'attentatore prima dell'esplosione.
    Cane cade in un dirupo e abbaia per tre giorni, è salvo Brutta disavventura per un cane meticcio dal manto nero: il piccolo era caduto in un dirupo profondo 40 metri nei pressi di Lenno, vicino a Como . Impossibilitato a risalire, aveva abbaiato con costanza per tre giorni e tre notti. Alcuni abitanti del luogo, insospettiti dai lamenti continui, hanno quindi provveduto ad allertare prontamente i soccorsi. Sul posto sono giunti gli uomini del Cai e quelli del servizio Como Soccorso Veterinario che, con cura e attenzione, hanno individuato il quadrupede per poi calarsi nella scarpata. Con il supporto reciproco e il sostegno di alcune funi hanno riportato l’animale in superficie e finalmente in salvo. Il cucciolone è apparso affamato, disidratato e giustamente impaurito ma in buone condizioni. I veterinari si sono subito occupati di lui nutrendolo a dovere, quindi valutando la sua condizione fisica dopo la caduta. Affidato all’Asl di zona, verrà sottoposto alla lettura del microchip , così da individuare il legittimo proprietario e riconsegna...
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            2048,
            1024,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 256
  • per_device_eval_batch_size: 512
  • learning_rate: 0.0002
  • num_train_epochs: 2
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.2
  • seed: 17
  • data_seed: 17
  • bf16: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 256
  • per_device_eval_batch_size: 512
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 0.0002
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.2
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 17
  • data_seed: 17
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.3002 870 1.7773
0.4003 1160 1.7512
0.5003 1450 1.7848
0.6004 1740 1.609
0.7005 2030 1.2954
0.8006 2320 1.2439
0.9006 2610 0.9671
1.0007 2900 0.8157
1.1008 3190 0.4215
1.2008 3480 0.4347
1.3009 3770 0.3626
1.4010 4060 0.3502
1.5010 4350 0.3609
1.6011 4640 0.2816
1.7012 4930 0.3173
1.8012 5220 0.3047
1.9013 5510 0.3008

Framework Versions

  • Python: 3.12.9
  • Sentence Transformers: 4.0.2
  • Transformers: 4.51.2
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.6.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
40
Safetensors
Model size
1.96B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ancc/Velvet-2B-Embedding-1404

Base model

Almawave/Velvet-2B
Finetuned
(2)
this model

Datasets used to train ancc/Velvet-2B-Embedding-1404