SentenceTransformer based on BookingCare/multilingual-e5-base-v2

This is a sentence-transformers model finetuned from BookingCare/multilingual-e5-base-v2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BookingCare/multilingual-e5-base-v2
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("BookingCare/multilingual-base-e5-v3.1")
# Run inference
sentences = [
    'Có cách nào để cải thiện môi trường làm việc độc hại không?',
    ' Tương tự như chất độc trong không khí,\ncó thể gây hại cho sức khỏe tinh thần và thể chất của người lao động. Nếu bạn tiếp tục làm việc quá lâu, nó có thể dẫn đến mức độ căng thẳng cao, lòng tự trọng bị tụt giảm và bệnh lý trầm cảm. môi trường làm việc độc hại Nếu sự vấn đề đến từ lãnh đạo hoặc tư duy của công ty, bạn sẽ không thể làm được gì nhiều để cải thiện, tuy nhiên nếu vấn đề chỉ đến từ 1 hoặc 2 người, bạn có thể thảo luận với người quản lý đáng tin cậy hoặc nói chuyện với bộ phận nhân sự (HR). Sau đó, công ty có thể thuê trợ giúp từ bên ngoài như thông qua chương trình hỗ trợ nhân viên (EAP) để giúp giải quyết vấn đề. Nếu không có sự lựa chọn nào ngoài việc ở lại lúc này, hãy thử đặt mình vào một vỏ bọc nhỏ, cố gắng tránh mọi thị phi và giữ an tĩnh cho riêng mình. Tập trung vào các mục tiêu bên ngoài công việc và bắt đầu lập kế hoạch để thoát ra ngoài.',
    ' Chấn thương đầu, cổ, tủy sống rất nguy hiểm vì có thể gây mất vận động (liệt),\nhôn mê\nvà tử vong.\nChấn thương tủy sống\nlà nguyên nhân tổn thương thần kinh và gây ra\nkhó thở\n. hôn mê Chấn thương tủy sống khó thở  Người bệnh bị chấn thương đầu, cổ, tủy sống cần được vận chuyển hết sức thận trọng. Bởi bất cứ vận động nào không phù hợp cũng có thể làm chấn thương nặng thêm như liệt tay hoặc chân. Nếu người bệnh không tỉnh, cần thực hiện hỗ trợ sự sống cơ bản.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.8483
cosine_accuracy@3 0.9266
cosine_accuracy@5 0.9465
cosine_accuracy@10 0.9639
cosine_precision@1 0.8483
cosine_precision@3 0.3089
cosine_precision@5 0.1893
cosine_precision@10 0.0964
cosine_recall@1 0.8483
cosine_recall@3 0.9266
cosine_recall@5 0.9465
cosine_recall@10 0.9639
cosine_ndcg@10 0.9104
cosine_mrr@10 0.8928
cosine_map@100 0.8943
dot_accuracy@1 0.8483
dot_accuracy@3 0.9266
dot_accuracy@5 0.9465
dot_accuracy@10 0.9639
dot_precision@1 0.8483
dot_precision@3 0.3089
dot_precision@5 0.1893
dot_precision@10 0.0964
dot_recall@1 0.8483
dot_recall@3 0.9266
dot_recall@5 0.9465
dot_recall@10 0.9639
dot_ndcg@10 0.9104
dot_mrr@10 0.8928
dot_map@100 0.8943

Information Retrieval

Metric Value
cosine_accuracy@1 0.6714
cosine_accuracy@3 0.8209
cosine_accuracy@5 0.865
cosine_accuracy@10 0.8996
cosine_precision@1 0.6714
cosine_precision@3 0.2736
cosine_precision@5 0.173
cosine_precision@10 0.09
cosine_recall@1 0.6714
cosine_recall@3 0.8209
cosine_recall@5 0.865
cosine_recall@10 0.8996
cosine_ndcg@10 0.7892
cosine_mrr@10 0.7533
cosine_map@100 0.7563
dot_accuracy@1 0.6714
dot_accuracy@3 0.8209
dot_accuracy@5 0.865
dot_accuracy@10 0.8996
dot_precision@1 0.6714
dot_precision@3 0.2736
dot_precision@5 0.173
dot_precision@10 0.09
dot_recall@1 0.6714
dot_recall@3 0.8209
dot_recall@5 0.865
dot_recall@10 0.8996
dot_ndcg@10 0.7892
dot_mrr@10 0.7533
dot_map@100 0.7563

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 5
  • per_device_eval_batch_size: 6
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 5
  • per_device_eval_batch_size: 6
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss healthcare-dev_cosine_map@100 healthcare-test_cosine_map@100
0 0 - - 0.8140 0.6266
0.0126 100 0.1461 0.1289 0.8342 -
0.0251 200 0.1063 0.1130 0.8448 -
0.0377 300 0.1015 0.1008 0.8536 -
0.0502 400 0.086 0.0937 0.8586 -
0.0628 500 0.0824 0.0895 0.8654 -
0.0753 600 0.1008 0.0872 0.8669 -
0.0879 700 0.0755 0.0930 0.8658 -
0.1004 800 0.0968 0.0923 0.8683 -
0.1130 900 0.1011 0.0889 0.8677 -
0.1255 1000 0.0943 0.0805 0.8706 -
0.1381 1100 0.0668 0.0782 0.8660 -
0.1507 1200 0.0746 0.0814 0.8738 -
0.1632 1300 0.0825 0.0768 0.8728 -
0.1758 1400 0.0851 0.0860 0.8660 -
0.1883 1500 0.1029 0.0736 0.8752 -
0.2009 1600 0.071 0.0805 0.8760 -
0.2134 1700 0.081 0.0717 0.8731 -
0.2260 1800 0.0767 0.0698 0.8744 -
0.2385 1900 0.0895 0.0795 0.8705 -
0.2511 2000 0.0666 0.0740 0.8701 -
0.2637 2100 0.0791 0.0702 0.8733 -
0.2762 2200 0.0779 0.0797 0.8767 -
0.2888 2300 0.0812 0.0739 0.8790 -
0.3013 2400 0.0492 0.0754 0.8798 -
0.3139 2500 0.0442 0.0850 0.8722 -
0.3264 2600 0.0652 0.0901 0.8717 -
0.3390 2700 0.0579 0.0865 0.8733 -
0.3515 2800 0.0543 0.0945 0.8742 -
0.3641 2900 0.0639 0.0950 0.8678 -
0.3766 3000 0.0587 0.0824 0.8775 -
0.3892 3100 0.078 0.0864 0.8675 -
0.4018 3200 0.091 0.0686 0.8763 -
0.4143 3300 0.0763 0.0780 0.8734 -
0.4269 3400 0.0552 0.0842 0.8668 -
0.4394 3500 0.0549 0.0748 0.8748 -
0.4520 3600 0.0642 0.0755 0.8790 -
0.4645 3700 0.0796 0.0815 0.8650 -
0.4771 3800 0.0949 0.0755 0.8642 -
0.4896 3900 0.0783 0.0691 0.8698 -
0.5022 4000 0.0534 0.0655 0.8822 -
0.5148 4100 0.0453 0.0709 0.8742 -
0.5273 4200 0.0498 0.0612 0.8838 -
0.5399 4300 0.0903 0.0619 0.8795 -
0.5524 4400 0.0667 0.0712 0.8825 -
0.5650 4500 0.0364 0.0962 0.8722 -
0.5775 4600 0.0502 0.0706 0.8790 -
0.5901 4700 0.0685 0.0672 0.8788 -
0.6026 4800 0.0675 0.0695 0.8768 -
0.6152 4900 0.083 0.0680 0.8787 -
0.6277 5000 0.0598 0.0715 0.8769 -
0.6403 5100 0.0548 0.0710 0.8744 -
0.6529 5200 0.0682 0.0679 0.8855 -
0.6654 5300 0.0378 0.0779 0.8809 -
0.6780 5400 0.0274 0.0711 0.8864 -
0.6905 5500 0.0635 0.0699 0.8842 -
0.7031 5600 0.0681 0.0563 0.8867 -
0.7156 5700 0.0389 0.0595 0.8806 -
0.7282 5800 0.0419 0.0586 0.8796 -
0.7407 5900 0.0306 0.0520 0.8837 -
0.7533 6000 0.0418 0.0622 0.8759 -
0.7659 6100 0.0459 0.0691 0.8770 -
0.7784 6200 0.0616 0.0679 0.8818 -
0.7910 6300 0.0541 0.0658 0.8888 -
0.8035 6400 0.0742 0.0767 0.8890 -
0.8161 6500 0.0531 0.0675 0.8904 -
0.8286 6600 0.0513 0.0720 0.8909 -
0.8412 6700 0.0505 0.0722 0.8897 -
0.8537 6800 0.0451 0.0705 0.8895 -
0.8663 6900 0.0456 0.0704 0.8892 -
0.8788 7000 0.0506 0.0668 0.8901 -
0.8914 7100 0.0424 0.0556 0.8903 -
0.9040 7200 0.036 0.0602 0.8890 -
0.9165 7300 0.0545 0.0656 0.8886 -
0.9291 7400 0.0604 0.0695 0.8863 -
0.9416 7500 0.0362 0.0617 0.8909 -
0.9542 7600 0.0442 0.0666 0.8932 -
0.9667 7700 0.0398 0.0648 0.8886 -
0.9793 7800 0.0471 0.0654 0.8921 -
0.9918 7900 0.0716 0.0615 0.8933 -
1.0044 8000 0.0306 0.0735 0.8929 -
1.0169 8100 0.0601 0.0708 0.8927 -
1.0295 8200 0.041 0.0672 0.8939 -
1.0421 8300 0.0311 0.0693 0.8956 -
1.0546 8400 0.0508 0.0700 0.8984 -
1.0672 8500 0.0414 0.0640 0.8933 -
1.0797 8600 0.0451 0.0606 0.8943 -
1.0923 8700 0.0347 0.0668 0.8898 -
1.1048 8800 0.0413 0.0663 0.8965 -
1.1174 8900 0.0369 0.0641 0.8964 -
1.1299 9000 0.0252 0.0543 0.8925 -
1.1425 9100 0.0221 0.0529 0.8879 -
1.1551 9200 0.0306 0.0568 0.8951 -
1.1676 9300 0.0378 0.0616 0.8954 -
1.1802 9400 0.0338 0.0592 0.8913 -
1.1927 9500 0.0207 0.0565 0.8992 -
1.2053 9600 0.0259 0.0600 0.8962 -
1.2178 9700 0.0079 0.0655 0.8950 -
1.2304 9800 0.022 0.0660 0.8959 -
1.2429 9900 0.0296 0.0657 0.8960 -
1.2555 10000 0.0263 0.0667 0.8916 -
1.2680 10100 0.0184 0.0590 0.8951 -
1.2806 10200 0.0254 0.0587 0.8926 -
1.2932 10300 0.0213 0.0627 0.8896 -
1.3057 10400 0.0141 0.0655 0.8905 -
1.3183 10500 0.0077 0.0702 0.8910 -
1.3308 10600 0.0159 0.0700 0.8921 -
1.3434 10700 0.015 0.0674 0.8908 -
1.3559 10800 0.018 0.0698 0.8955 -
1.3685 10900 0.0156 0.0677 0.8908 -
1.3810 11000 0.0219 0.0666 0.8952 -
1.3936 11100 0.015 0.0640 0.8941 -
1.4062 11200 0.0231 0.0634 0.8916 -
1.4187 11300 0.0172 0.0679 0.8940 -
1.4313 11400 0.0228 0.0636 0.8925 -
1.4438 11500 0.0199 0.0655 0.8935 -
1.4564 11600 0.025 0.0687 0.8961 -
1.4689 11700 0.0277 0.0679 0.8922 -
1.4815 11800 0.0227 0.0672 0.8912 -
1.4940 11900 0.0222 0.0679 0.8914 -
1.5066 12000 0.0138 0.0656 0.8929 -
1.5191 12100 0.0107 0.0663 0.8916 -
1.5317 12200 0.0137 0.0580 0.8927 -
1.5443 12300 0.0311 0.0578 0.8948 -
1.5568 12400 0.0198 0.0621 0.8953 -
1.5694 12500 0.0084 0.0638 0.8950 -
1.5819 12600 0.0166 0.0600 0.8959 -
1.5945 12700 0.0251 0.0599 0.8928 -
1.6070 12800 0.0154 0.0624 0.8973 -
1.6196 12900 0.0301 0.0629 0.8937 -
1.6321 13000 0.0198 0.0616 0.8937 -
1.6447 13100 0.0146 0.0601 0.8914 -
1.6573 13200 0.0128 0.0610 0.8945 -
1.6698 13300 0.0092 0.0606 0.8920 -
1.6824 13400 0.0121 0.0595 0.8954 -
1.6949 13500 0.0183 0.0577 0.8918 -
1.7075 13600 0.0245 0.0572 0.8944 -
1.7200 13700 0.0166 0.0592 0.8931 -
1.7326 13800 0.0059 0.0593 0.8929 -
1.7451 13900 0.0087 0.0581 0.8918 -
1.7577 14000 0.0252 0.0595 0.8924 -
1.7702 14100 0.0165 0.0585 0.8976 -
1.7828 14200 0.022 0.0595 0.8976 -
1.7954 14300 0.0143 0.0602 0.8967 -
1.8079 14400 0.0328 0.0608 0.8974 -
1.8205 14500 0.0228 0.0597 0.8983 -
1.8330 14600 0.009 0.0594 0.8979 -
1.8456 14700 0.0188 0.0593 0.8952 -
1.8581 14800 0.0157 0.0583 0.8962 -
1.8707 14900 0.0116 0.0571 0.8969 -
1.8832 15000 0.0183 0.0559 0.8989 -
1.8958 15100 0.0118 0.0554 0.8972 -
1.9083 15200 0.0192 0.0559 0.8970 -
1.9209 15300 0.0109 0.0566 0.8957 -
1.9335 15400 0.0145 0.0566 0.8975 -
1.9460 15500 0.0131 0.0573 0.8965 -
1.9586 15600 0.0104 0.0575 0.8969 -
1.9711 15700 0.0185 0.0581 0.8961 -
1.9837 15800 0.0131 0.0579 0.8943 -
1.9962 15900 0.032 0.0576 0.8943 -
2.0 15930 - - - 0.7563

Framework Versions

  • Python: 3.10.13
  • Sentence Transformers: 3.2.0
  • Transformers: 4.41.2
  • PyTorch: 2.1.2
  • Accelerate: 0.30.1
  • Datasets: 2.19.2
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
14
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for BookingCare/multilingual-e5-base-v3.1

Finetuned
(2)
this model

Evaluation results