← 返回题库
RAG 检索增强中等

Embedding 模型怎么选?bge-m3 / gte / jina 区别?

#Embedding 选型#稠密/稀疏/多向量#中文支持#长文本

题目

RAG 系统选 Embedding 模型是关键决策。请说明 bge-m3、gte、jina 等主流模型的区别与选型原则。

参考答案

主流 Embedding 模型

模型出品特点维度
bge-m3智源稠密+稀疏+多向量三合一,支持 100+ 语言、8192 长文本1024
bge-large-zh智源中文专精,强 baseline1024
gte阿里多语言,性能稳定768/1024
jina-embeddings-v3Jina长文本友好(8192),多语言1024
text-embedding-3OpenAI闭源 API,Matryoshka 维度可调1536/3072
e5 / multilingual-e5微软多语言经典 baseline768/1024

关键选型维度

  1. 语言:中文场景优先 bge-zh、gte-zh;多语言用 bge-m3、multilingual-e5。
  2. 文本长度:超长文档用 bge-m3、jina-v3(8192),短文本无需。
  3. 检索类型
    • 仅稠密:bge-large、gte。
    • 混合检索(稠密+稀疏+多向量):bge-m3 一站式。
  4. 部署:开源(bge/gte/jina/e5)可本地部署;闭源(OpenAI/Cohere)省事但有成本与隐私。
  5. 维度:高维精度高但存储大;Matryoshka embedding 可截断用低维省存储。

bge-m3 的特殊价值

  • 三合一:同时输出稠密向量、稀疏(词级权重)、ColBERT 风格多向量。
  • 一次推理即可做混合检索(稠密语义 + 稀疏字面 + 多向量精排),是 RAG 的瑞士军刀。
  • 8192 长上下文,长文档无需切太碎。

Matryoshka Embedding

  • 训练时同时在多个维度截断点算损失,使前 N 维就是有效向量。
  • 部署时可按需截断(如用前 256 维省存储),精度平滑下降。
  • OpenAI text-embedding-3、bge-m3 都支持。

评测参考:MTEB / C-MTEB 榜单是 Embedding 性能的事实参考,但要注意:

  • 榜单可能与业务分布不符,需在自有数据上评测。
  • 召回率(Recall@K)比榜单分数更贴近 RAG 实战。

面试加分点

  • 强调”换 Embedding 是 RAG 优化高性价比手段”,但加 rerank 常比换 embedding 收益更大。
  • 中文场景 bge 系列长期霸榜 C-MTEB,是默认选择。
  • Embedding 模型更新快,需定期复评是否换新。

出处:MTEB/C-MTEB 榜单、bge-m3 模型卡、RAG 实战面经。

内容来源

整理自 RAG 实战面经与 MTEB 榜单

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。