5款Embedding模型横评：中文RAG该选哪款？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 
  
    
     我上周花了一周时间搭了个测试环境：5000篇中文技术文档，200个真实查询，5款Embedding模型挨个跑了一遍。

结果有点出乎意料，网上讨论最多的几个模型，中文的表现反而不是最好。

5款Embedding模型横评封面

这里先把条件摆出来，方便你判断这些数据的参考价值。

文档数据

5000篇中文技术文档（AI、编程、数据科学）
平均长度1200字/篇
总计约600万字

查询数据

200个真实用户查询
覆盖4类：事实型（50个）、概念型（50个）、对比型（50个）、操作型（50个）

测试环境

向量数据库：Milvus 2.3
硬件：单张A100 80GB
评测指标：Recall@10、P95延迟、单次查询成本

模型厂商维度最大上下文价格 text-embedding-3-large OpenAI 3072 8191 tokens $0.13/1M tokens bge-large-zh-v1.5 智源研究院 1024 512 tokens 开源免费 m3e-large Moka AI 1024 512 tokens 开源免费 glm-embedding 智谱AI 1024 8192 tokens ¥0.5/1M tokens cohere-embed-v3 Cohere 1024 512 tokens $0.1/1M tokens

不想看过程的可以直接抄作业。

中文RAG推荐：

预算紧

→ bge-large-zh-v1.5（免费，中文召回率第二）

要精度

→ glm-embedding（中文召回率领先，价格还行）

图省事

→ OpenAI text-embedding-3-large（生态成熟，中文不是最强）

别碰：m3e-large（召回率掉队）和 cohere-embed-v3（中文一般，还收钱）

召回率（Recall@10）

RAG说白了就是“找对文档”。文档找错了，后面LLM再强也是白搭，所以召回率我放在第一位测。

模型事实型概念型对比型操作型平均 bge-large-zh-v1.5 86% 82% 78% 80% 81.5% glm-embedding 88% 84% 80% 82% 83.5% text-embedding-3-large 82% 80% 76% 78% 79% m3e-large 74% 70% 68% 72% 71% cohere-embed-v3 78% 76% 72% 74% 75%

说说数据反映的情况：

国产模型在中文上确实占便宜。bge-large-zh和glm-embedding平均召回率都过了80%，OpenAI和Cohere都没到。

这不是说国产模型技术上更厉害。主要是训练语料里中文占比大，对中文语义理解得更细。

“对比型”查询翻车最多。

比如用户搜“A和B有什么区别”，模型得同时理解两个概念，再在向量空间里找到同时涉及两者的文档。这类查询召回率普遍偏低，最高也就80%。

延迟（P95）

用户搜一个问题，等10秒才有回答，体验肯定很差。

模型批量索引（docs/s）单次查询P95（ms） bge-large-zh-v1.5 850 12 glm-embedding 780 15 text-embedding-3-large 320 45 m3e-large 900 10 cohere-embed-v3 280 52

开源模型延迟碾压API模型，差距3-5倍。

原因不复杂：本地部署没有网络开销。API调用要过一趟网络，光是往返延迟就吃掉了大部分。

做实时客服之类的场景，基本只能选本地部署。

m3e-large召回率虽然低，但延迟表现还不错。对精度要求不高的场景，凑合能用。

成本

成本要看你怎么用。

调用量小，API更划算；

调用量大，自建GPU更省钱。

开源模型（bge、m3e）

需要GPU服务器，大约2-5万/月
调用成本接近零（电费+运维）
适合日调用量100万以上

API模型（OpenAI、glm、cohere）

不需要自己部署
按token计费
适合日调用量100万以下

成本交叉点估算：

拿bge-large-zh-v1.5和glm-embedding估算：

日50万次：API约25元/天，GPU约167元/天 → API便宜
日200万次：API约100元/天，GPU约167元/天 → API还是便宜
日500万次：API约250元/天，GPU约167元/天 → 自建才划算

交叉点大概在日调用量300-400万次。如果你的业务低于这个数，就直接调API，别折腾自建啦。

坑一：参数用默认值

模型都有默认参数，但它们不一定适合你的场景

bge-large-zh-v1.5的关键参数：

encode_kwargs[‘normalize_embeddings’]：设为True，效果提升3-5%
查询前缀：加上“为这个句子生成表示以用于检索相关文章”，召回率提升2%

glm-embedding的关键参数：

维度选择：1024维度够用，不需要追求更高
批量大小：64效果最好，太大反而降低吞吐量

坑二：分块策略太粗暴

Embedding模型有输入长度上限，超了就得切。怎么切，直接影响召回率。

实测数据：

分块策略 bge召回率 glm召回率固定500字 78% 80% 固定500字+100字重叠 81% 83% 语义分块 83% 85% 语义分块+元数据过滤 86% 88%

语义分块比固定分块高了5个百分点。再加上元数据过滤（按日期、类别筛），还能再提3个点。

坑三：Query不改写

用户搜的词通常很短，比如“怎么用RAG”。直接拿这个去检索，效果很差。

三个改写技巧：

用LLM把短查询扩成完整问题：“怎么用RAG” → “怎么用RAG技术搭建企业知识库问答系统”
生成几个相似查询，分别检索后合并结果
提取关键词当元数据过滤条件

我测下来，Query改写能提5-8个百分点的召回率。

根据上面数据，画了个决策图：

选型决策树

日调用量超过300万？

是 → 自建GPU → bge-large-zh-v1.5
否 → 继续往下看

你更在意哪个？

召回率 → glm-embedding
省事 → OpenAI text-embedding-3-large
不花钱 → bge-large-zh-v1.5（自建）

有没有特殊需求？

要多语言 → OpenAI或Cohere
文档很长 → glm-embedding（支持8192 tokens）
数据不能出内网 → bge-large-zh-v1.5

做完这次测试，最大的感受是：很多人搞RAG，精力都花在LLM选型上了。

检索环节召回率不够，LLM再强也没用。

输入是垃圾，输出也只会是垃圾。

Embedding选对、分块做好、Query改写加上，这三个动作就能把准确率从60%拉到85%以上。

先把检索这关过了，咱们再操心LLM的事。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

扫码免费领取全部内容
在这里插入图片描述

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

5款Embedding模型横评：中文RAG该选哪款？

召回率（Recall@10）

延迟（P95）

成本

坑一：参数用默认值

坑二：分块策略太粗暴

坑三：Query不改写

相关推荐