SentenceTransformer

This is a sentence-transformers model trained on the train_set dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Learning other languages besides Chinese and English is insufficient, so additional learning is needed to optimize use of other languages.
This model is additionally trained on the Korean dataset.

Model Description

Model Type: Sentence Transformer Transformer Encoder
Maximum Sequence Length: 8192 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Model tree for ruatnec/upstageai-6team-kobge-model

Base model

BAAI/bge-m3

Finetuned

(220)

this model

Evaluation results

Cosine Accuracy@1 on miracl
self-reported

0.610
Cosine Accuracy@3 on miracl
self-reported

0.817
Cosine Accuracy@5 on miracl
self-reported

0.873
Cosine Accuracy@10 on miracl
self-reported

0.920
Cosine Precision@1 on miracl
self-reported

0.610
Cosine Precision@3 on miracl
self-reported

0.379
Cosine Precision@5 on miracl
self-reported

0.276
Cosine Precision@10 on miracl
self-reported

0.173
Cosine Recall@1 on miracl
self-reported

0.385
Cosine Recall@3 on miracl
self-reported

0.590

View on Papers With Code