Gemini Embedding 2：首个原生五模态 embedding 模型

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 <p id="4CNKR8CN">Google DeepMind 今天发了<strong>Gemini Embedding 2</strong>，第一个原生五模态 embedding 模型<br/>、、、、，五种东西，首次编码进同一个向量空间</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Faeb01219j00tbq0va007dd200qe00sig00qe00si.jpg&thumbnail=660x&quality=80&type=jpg" width="950" height="1026" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/>https://x.com/OfficialLoganK/status/ 它能处理什么<br/></p><p id="4CNKR8CO">五种模态，支持 100+ 语言：</p><p><ul><li id="4CNKR8E8"></p><p id="4CNKR8CP">• 文本：最多 8192 个 input tokens</p><p></li><li id="4CNKR8E9"></p><p id="4CNKR8CQ">• 图片：每次最多 6 张，PNG / JPEG</p><p></li><li id="4CNKR8EA"></p><p id="4CNKR8CR">• 视频：最长 128 秒，MP4 / MOV</p><p></li><li id="4CNKR8EB"></p><p id="4CNKR8CS">• 音频：最长 80 秒，MP3 / WAV（不支持 AAC、FLAC）</p><p></li><li id="4CNKR8EC"></p><p id="4CNKR8CT">• PDF：最多 6 页</p><p></li></ul></p><p id="4CNKR8CU">这五种东西可以混着传。一次 API 调用里同时丢一段文字、三张图、一段录音进去，模型返回一个向量，这个向量理解的是它们之间的关系</p><p id="4CNKR8CV">以前要做类似的事（比如用一句话搜到相关的视频片段），得给每种模态各跑一个模型，各建一个索引，再写代码把结果拼起来。现在一个模型、一个索引就够了</p><p id="4CNKR8D0">Google 给了这样的例子：</p><pre><br/></pre></p><p id="4CNKR8D4">在这里，三种模态，一次调用，一个向量</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Fce30f45bg00tbq0vb00ood200m800cig00m800ci.gif&thumbnail=660x&quality=80&type=jpg" width="800" height="450" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/>belike 跑分<br/></p><p id="4CNKR8D5">默认输出 3072 维向量。支持灵活缩维（Matryoshka Representation Learning），缩小之后跑分几乎不掉：</p><p><ul><li id="4CNKR8ED"></p><p id="4CNKR8D6">•<strong>3072 维</strong>：MTEB 68.17</p><p></li><li id="4CNKR8EE"></p><p id="4CNKR8D7">•<strong>2048 维</strong>：MTEB 68.16</p><p></li><li id="4CNKR8EF"></p><p id="4CNKR8D8">•<strong>1536 维</strong>：MTEB 68.17（比 2048 还高 0.01）</p><p></li><li id="4CNKR8EG"></p><p id="4CNKR8D9">•<strong>768 维</strong>：MTEB 67.99</p><p></li></ul></p><p id="4CNKR8DA"><strong>768 维的存储成本是 3072 维的四分之一，跑分只掉了 0.18</strong></p><p id="4CNKR8DB">有个反直觉的细节：1536 维的分数比 2048 维略高。Google 建议开发者优先用 3072、1536、768 三个档位</p><p id="4CNKR8DC">补个背景。前代目前仍然排在 MTEB English 榜第一，均分 68.32，领先第二名 5 分多。Embedding 2 在纯文本上没拉开明显差距，核心增量在多模态</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2F0015ef87j00tbq0vb0017d200rs00g2g00rs00g2.jpg&thumbnail=660x&quality=80&type=jpg" width="1000" height="578" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/>Gemini Embedding 2 benchmarks 定价<ul><li id="4CNKR8EH"><br/></p><p id="4CNKR8DD">• 文本：<strong>$0.20 / 百万 tokens</strong></p><p></li><li id="4CNKR8EI"></p><p id="4CNKR8DE">• Batch API：半价，<strong>$0.10 / 百万 tokens</strong></p><p></li><li id="4CNKR8EJ"></p><p id="4CNKR8DF">• 图片、音频、视频：按 Gemini API 标准媒体 token 费率</p><p></li></ul></p><p id="4CNKR8DG">做个对比：</p><p><ul><li id="4CNKR8EK"></p><p id="4CNKR8DH">• 前代（纯文本）：$0.15 / 百万 tokens</p><p></li><li id="4CNKR8EL"></p><p id="4CNKR8DI">• OpenAI（纯文本）：$0.13 / 百万 tokens</p><p></li><li id="4CNKR8EM"></p><p id="4CNKR8DJ">• Cohere（文本 + 图片）：$0.12 / 百万 tokens</p><p></li></ul></p><p id="4CNKR8DK">多了音频、视频、PDF 三种模态，价格比前代涨了 33%。考虑到能力的增量，这个溢价不高</p><p>竞品</p><p id="4CNKR8DL">多模态 embedding 不是没人做过：</p><p><ul><li id="4CNKR8EN"></p><p id="4CNKR8DM">• Cohere Embed v4：文本 + 图片，不支持音频和视频，128K tokens 长上下文</p><p></li><li id="4CNKR8EO"></p><p id="4CNKR8DN">• CLIP 系列 / Jina CLIP v2：图片 + 文本</p><p></li><li id="4CNKR8EP"></p><p id="4CNKR8DO">• Nomic：图片 + 文本</p><p></li></ul></p><p id="4CNKR8DP">Gemini Embedding 2 是第一个在一个商用 API 里覆盖五种模态 + 100 语言的</p><p id="4CNKR8DQ">开源侧追得快。NVIDIA 的领跑多语言 MTEB，Qwen3-Embedding-8B 拿到 70.58 分，支持 32 到 4096 灵活维度。但这些目前都还是纯文本</p><p id="4CNKR8DR">几个明确的问题：</p><p id="4CNKR8DS"><strong>向量空间不兼容</strong><br/>和的向量空间完全不同。想升级，只能把整个数据集全部重新编码一遍，重建索引。没有渐进迁移的办法</p><p id="4CNKR8DT"><strong>音频限制紧</strong><br/>80 秒上限，只支持 MP3 和 WAV。30 分钟的会议录音要切成 20 多段</p><p id="4CNKR8DU"><strong>视频 128 秒</strong><br/>超过两分钟就要自己分片</p><p id="4CNKR8DV"><strong>PDF 最多 6 页</strong><br/>合同、研报、论文基本都超</p><p id="4CNKR8E0"><strong>还在 Public Preview</strong><br/>API 容量可能有限，规格在正式发布前可能还会变。做原型没问题，上生产要掂量</p><p>早期反馈</p><p id="4CNKR8E1">Google 引用了法律科技公司 Everlaw 的 CTO Max Christoff 的说法。他们用 Gemini 多模态 embedding 做诉讼发现（从海量证据里找关键信息），百万级记录上精确率和召回率都有提升，图片和视频搜索是之前完全没有的能力</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Fcf704f4bj00tbq0vd0031d200u000gvg00u000gv.jpg&thumbnail=660x&quality=80&type=jpg"/><br/>Everlaw CTO 反馈 接入方式<br/></p><p id="4CNKR8E2">模型名，通过 Gemini API 或 Vertex AI 调用</p><p id="4CNKR8E3">已支持：LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Pinecone、Vector Search</p><p id="4CNKR8E4">Google 做了个多模态语义搜索的 demo，可以直接试看这里：</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Fd8cf1235j00tbq0ve00h0d200u000iyg016800qn.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p>
Gemini Embedding 2：首个原生五模态 embedding 模型

相关推荐