Yuan-embedding-1.0

Yuan-embedding-1.0 是专门为中文文本检索任务设计的嵌入模型。 在xiaobu模型结构(bert-large结构)基础上, 采用全新的数据集构建、生成与清洗方法, 结合二阶段微调实现Retrieval任务的精度领先(Hugging Face C-MTEB榜单 [1])。 其中, 正负例样本采用源2.0-M32(Yuan2.0-M32 [2])大模型进行生成。主要工作如下:

  • 在Hard negative sampling中,使用Rerank模型(bge-reranker-large [3])进行数据排序筛选

  • 通过(Yuan2.0-M32大模型)迭代生成新query、corpus

  • 采用MRL方法进行模型微调训练

Usage

pip install -U sentence-transformers==3.1.1

使用示例:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("IEIYuan/Yuan-embedding-1.0")
sentences = [
    "这是一个样例-1",
    "这是一个样例-2",
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities)

Reference

  1. https://huggingface.co/spaces/mteb/leaderboard
  2. https://huggingface.co/IEITYuan/Yuan2-M32
  3. https://huggingface.co/BAAI/bge-reranker-large
Downloads last month
712
Safetensors
Model size
326M params
Tensor type
F32
·
Inference API
Unable to determine this model's library. Check the docs .

Evaluation results