SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: BAAI/bge-m3
Maximum Sequence Length: 1024 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs128-finance-book-science-215")
# Run inference
sentences = [
    '1970년대 경제위기 상황으로 사회복지가 위기를 맞으며 사회적 경제 운동이 일어나1990년대 후반부터 사회적 기업이 시작된 나라는 어디야?',
    '제2차 세계대전 이후 1950년대와 1960년대 거치면서 경제성장을 기반으로 정부지출의 지속적인 증가와 복지에 대한 사회적 합의는 다수 산업의 국유화와 그에 따른 공공부분의 확대, 사회복지의 확대를 가능하게 하였다. 그러나 1970년대 경제위기 상황은 사회복지의 위기를 가져왔고 1980년대의 경기침체는 더 이상 복지지출의 확대를 허락하지 않는 ‘외부충격’이 있었다. 현대적 의미에서 사회적 기업은 1970년대부터의 노동자 협동조합, 신용조합, 지역사회 상점(community shop), 개발신탁, 지역사회 비즈니스 운동, 노동통합(work integration) 운동 등 ‘사회적 경제’ 운동에서 시작하였다고 한다. 영국 사회에 나타난 이와 같은 일련의 사건들은 복지국가 위기로 인식되었다. 한편으로는 이러한 사건들이 이전 18세기부터 발달해 왔던 협동조합, 상호공제조합, 자선단체와 같은 활동의 역할이 더욱 중요하게 부각되는 계기가 되기도 하였다. 영국에서는 1990년대 후반부터 이루어진 노동당의 집권이 현대적인 의미의 사회적 경제와 사회적 기업의 발전, 나아가 제도화에 큰 영향을 주었다.',
    'Ⅰ. 서론\n최근 일부 국가에서 2008년 글로벌 금융위기를 겪으면서 사회적경제의 역할과 기능에 대하여 전반적인 관심이 높아지면서 사회적경제의 활성화가 여러 국가들이 직면한 사회적･경제적 문제의 해결에 기여할 것이라는 사회적 공감대가 형성되었다 (권재열, 2015). 이에 스페인, 멕시코, 에콰도르, 포르투갈, 프랑스와 캐나다의 퀘벡주 등에서 사회적경제기본법이 제정되어 시행되고 있다. 각국의 사회적경제기본법은 사회적경제의 정체성 규정을 위한 법적 틀을 제공하고, 사회적경제에 대한 포괄적인 지원 및 촉진 정책을 제공하고 있다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 128
learning_rate: 3e-05
num_train_epochs: 2
warmup_ratio: 0.05
fp16: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: no
prediction_loss_only: True
per_device_train_batch_size: 128
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 3e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 2
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.05
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: True
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
eval_use_gather_object: False
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional

Training Logs