SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-news")
# Run inference
sentences = [
    '지역 예술인을 위한 공모를 시행했던 프로젝트는 어떤 것에 일부분이야?',
    '마산의 원도심 성호동의 역사가 예술로 기록되고 되살아난다. 시대를 살아낸 사람들의 애틋한 이야기가 아름다운 소리, 몸짓, 조형, 화첩에 담겨 시민을 만난다. 창원시와 창원시문화도시지원센터는 오는 30일 오후 2시 마산합포구 문신길 일대에서 성호동과 그 주변 지역주민들의 삶, 지리적, 환경적 문화를 예술에 담은 〈사회참여예술창작지원사업〉 ‘예술로 성호창발(城湖創發)’ 창작 발표회를 갖는다고 밝혔다. 문화특화지역조성사업의 일환으로 진행하는 이 사업은 생성과 소멸의 과정을 거쳐 성장해온 도심 속 흩어져 있는 다양한 문화를 예술로 기록하고 후대에 물려주기 위한 취지로 순수예술 창작물을 구현하고 예술의 사회적 책임에 관해 고찰해 보는 사업이다. 앞으로 지역 예술인들과 뜻을 모아 소중한 원도심의 문화가 한순간 덧없이 사라지는 일이 없도록 매년 확대해 나갈 계획이다. 성호동을 대상으로 올해 처음 시행하는 ‘예술로 성호창발(城湖創發)’ 사업은 지난해 10월 지역 예술인들을 대상으로 참가자를 공개 모집한 결과, 사업 취지를 이해하고 창작 능력과 작품의 완성도가 기대되는 4개 단체를 선정하였다. 선정된 4개 단체 작가들은 스토리 개발을 위해 성호동 주민들을 만나 세밀한 대화를 나누기도 하고, 장르와 특성에 맞는 창작품을 만들기 위해 성호동 구석구석을 누비는 열정을 보였다. 발표회는 1월 30일 오후 2시부터 4시 30분까지 ‘성호동 이바구 투어’라는 이름으로 마산박물관 앞에 모여 문신 길을 따라 추산창작공작소 4933을 거쳐 임항선 그린웨이, 그리고 성호동 생활문화센터를 지나 정법사로 이동하면서 펼쳐진다. 〈(사)경남국악관현악단 ‘휴’〉가 ‘추산창작공작소 4933’에서 동네 이야기를 판소리로 엮어 국악 관현악과 경서도 소리를 통해 성호동의 옛이야기를 펼치고, 는 ‘성호동의 역사와 추억을 담다’란 주제로 도시가 발달하면서 퇴색되어가는 성호동 동네잔치의 상징적 의미를 담은 조형물을 설치했다. 〈신미란 작가〉는 ‘성호동 생활문화센터 2층 전시장’에서 성호동 사람과 삶의 이야기(話)와 그림(畵)을 표현한 ‘성호화첩(成湖話畵)’을 발표하며, 〈박은혜 춤패〉는 ‘일란 이필이의 춤을 찾아가는 소소한 춤 여행’이란 주제로 이필이 선생의 춤을 추며 다큐멘터리 시사회를 가지는 것으로 전체 일정을 마친다. 공식 행사 외의 진행은 성호동 토박이 김경년 창원시도시재생지원센터 해설사가 맡아 행사장을 이동하는 중간중간 맛깔나는 이바구로 성호동의 역사를 들려준다. 심재욱 창원시 문화체육관광국장은 “도시는 사람의 역사를 품은 곳으로 이제 사람이 도시를 품어야 문화예술로 지속 성장의 가능성을 보여줄 수 있다”라며 문화의 힘을 강조했다. 한편 행사 참가는 사회적 거리두기를 위해 참석 인원을 20명으로 제한하여 운영한다.',
    '충남 공주시는 제민천과 국고개 일원을 대상으로 지난해 8월부터 추진한 공공미술 프로젝트 사업이 완료됐다고 21일 밝혔다. 문화체육관광부가 주최 공주시가 주관한 공공미술 프로젝트는 지역예술인 일자리 제공 및 주민 문화 향유 증진이라는 취지로 전국 228개 지자체 대상으로 추진됐다. 이에 시는 지난해 8월 공모를 통해 한국미술협회(공주지부)와 충남공예협동조합 2개팀을 선정 지역작가 37명의 참여를 통해 진행해 \'중동교~대통교\'사이에 조명과 벤치, 포토존 그리고 주민참여로 만들어진 송사리 조형물을 설치해 주민들에게 휴식 공간을 제공했다. 그리고 \'국고개 흐르는 효심\'은 도조작품, 화분조형, 이복이야기 동화책 및 국고개 가이드북 만들기 등 커뮤니티 프로그램 운영 역사.문화.예술 중심지의 특성을 살리는데 중점을 뒀다. 황의정 문화체육과장은 "앞으로도 시민들이 언제 어디서나 문화예술을 누리고, 지역예술인에게는 일자리를 제공할 수 있는 다양한 사업을 진행하겠다"고 말했다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • learning_rate: 3e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.05
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0055 1 0.9362
0.0109 2 0.9293
0.0164 3 0.9862
0.0219 4 0.9736
0.0273 5 0.9256
0.0328 6 0.8622
0.0383 7 0.762
0.0437 8 0.6716
0.0492 9 0.7307
0.0546 10 0.7201
0.0601 11 0.6136
0.0656 12 0.5874
0.0710 13 0.5537
0.0765 14 0.5484
0.0820 15 0.5917
0.0874 16 0.4819
0.0929 17 0.4295
0.0984 18 0.4323
0.1038 19 0.4973
0.1093 20 0.523
0.1148 21 0.4483
0.1202 22 0.3937
0.1257 23 0.4334
0.1311 24 0.4395
0.1366 25 0.3938
0.1421 26 0.4505
0.1475 27 0.4064
0.1530 28 0.442
0.1585 29 0.4523
0.1639 30 0.4507
0.1694 31 0.3424
0.1749 32 0.3679
0.1803 33 0.452
0.1858 34 0.3591
0.1913 35 0.4057
0.1967 36 0.3793
0.2022 37 0.4284
0.2077 38 0.4479
0.2131 39 0.4021
0.2186 40 0.4232
0.2240 41 0.3731
0.2295 42 0.4112
0.2350 43 0.329
0.2404 44 0.3724
0.2459 45 0.3368
0.2514 46 0.3915
0.2568 47 0.3626
0.2623 48 0.3927
0.2678 49 0.3321
0.2732 50 0.4041
0.2787 51 0.3904
0.2842 52 0.3633
0.2896 53 0.3536
0.2951 54 0.3782
0.3005 55 0.3478
0.3060 56 0.3844
0.3115 57 0.3319
0.3169 58 0.3694
0.3224 59 0.3954
0.3279 60 0.3655
0.3333 61 0.3842
0.3388 62 0.3405
0.3443 63 0.3799
0.3497 64 0.3691
0.3552 65 0.3444
0.3607 66 0.3604
0.3661 67 0.3966
0.3716 68 0.4169
0.3770 69 0.3464
0.3825 70 0.3306
0.3880 71 0.3634
0.3934 72 0.3614
0.3989 73 0.3486
0.4044 74 0.3768
0.4098 75 0.349
0.4153 76 0.3468
0.4208 77 0.353
0.4262 78 0.358
0.4317 79 0.343
0.4372 80 0.3312
0.4426 81 0.3504
0.4481 82 0.3915
0.4536 83 0.3477
0.4590 84 0.3754
0.4645 85 0.358
0.4699 86 0.3157
0.4754 87 0.339
0.4809 88 0.3751
0.4863 89 0.3216
0.4918 90 0.3321
0.4973 91 0.3793
0.5027 92 0.3811
0.5082 93 0.3266
0.5137 94 0.3517
0.5191 95 0.3395
0.5246 96 0.3489
0.5301 97 0.3309
0.5355 98 0.2989
0.5410 99 0.3337
0.5464 100 0.3495
0.5519 101 0.3145
0.5574 102 0.3704
0.5628 103 0.3184
0.5683 104 0.3123
0.5738 105 0.3363
0.5792 106 0.3444
0.5847 107 0.2916
0.5902 108 0.3163
0.5956 109 0.3304
0.6011 110 0.2937
0.6066 111 0.3321
0.6120 112 0.3638
0.6175 113 0.3525
0.6230 114 0.3646
0.6284 115 0.3393
0.6339 116 0.3327
0.6393 117 0.3075
0.6448 118 0.342
0.6503 119 0.363
0.6557 120 0.3238
0.6612 121 0.3777
0.6667 122 0.3194
0.6721 123 0.3194
0.6776 124 0.3325
0.6831 125 0.3615
0.6885 126 0.3363
0.6940 127 0.3149
0.6995 128 0.3071
0.7049 129 0.3481
0.7104 130 0.3252
0.7158 131 0.3262
0.7213 132 0.3133
0.7268 133 0.3516
0.7322 134 0.3329
0.7377 135 0.3546
0.7432 136 0.32
0.7486 137 0.3359
0.7541 138 0.3466
0.7596 139 0.3147
0.7650 140 0.2709
0.7705 141 0.391
0.7760 142 0.3345
0.7814 143 0.3182
0.7869 144 0.3533
0.7923 145 0.3247
0.7978 146 0.3572
0.8033 147 0.336
0.8087 148 0.337
0.8142 149 0.321
0.8197 150 0.3655
0.8251 151 0.3425
0.8306 152 0.3284
0.8361 153 0.3443
0.8415 154 0.3064
0.8470 155 0.2999
0.8525 156 0.3006
0.8579 157 0.325
0.8634 158 0.3321
0.8689 159 0.3414
0.8743 160 0.3172
0.8798 161 0.332
0.8852 162 0.296
0.8907 163 0.3394
0.8962 164 0.3254
0.9016 165 0.3288
0.9071 166 0.3342
0.9126 167 0.322
0.9180 168 0.3178
0.9235 169 0.3103
0.9290 170 0.299
0.9344 171 0.3765
0.9399 172 0.3814
0.9454 173 0.3275
0.9508 174 0.2835
0.9563 175 0.3338
0.9617 176 0.3284
0.9672 177 0.3784
0.9727 178 0.3031
0.9781 179 0.3149
0.9836 180 0.3437
0.9891 181 0.3259
0.9945 182 0.3329
1.0 183 0.3135

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
5
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for seongil-dn/bge-m3-kor-retrieval-451949-bs64-news

Base model

BAAI/bge-m3
Finetuned
(185)
this model