<p id="4CNKR8CN">Google DeepMind 今天发了<strong>Gemini Embedding 2</strong>,第一个原生五模态 embedding 模型<br/>、、、、,五种东西,首次编码进同一个向量空间</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Faeb01219j00tbq0va007dd200qe00sig00qe00si.jpg&thumbnail=660x&quality=80&type=jpg" width="950" height="1026" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/>https://x.com/OfficialLoganK/status/ 它能处理什么<br/></p><p id="4CNKR8CO">五种模态,支持 100+ 语言:</p><p><ul><li id="4CNKR8E8"></p><p id="4CNKR8CP">• 文本:最多 8192 个 input tokens</p><p></li><li id="4CNKR8E9"></p><p id="4CNKR8CQ">• 图片:每次最多 6 张,PNG / JPEG</p><p></li><li id="4CNKR8EA"></p><p id="4CNKR8CR">• 视频:最长 128 秒,MP4 / MOV</p><p></li><li id="4CNKR8EB"></p><p id="4CNKR8CS">• 音频:最长 80 秒,MP3 / WAV(不支持 AAC、FLAC)</p><p></li><li id="4CNKR8EC"></p><p id="4CNKR8CT">• PDF:最多 6 页</p><p></li></ul></p><p id="4CNKR8CU">这五种东西可以混着传。一次 API 调用里同时丢一段文字、三张图、一段录音进去,模型返回一个向量,这个向量理解的是它们之间的关系</p><p id="4CNKR8CV">以前要做类似的事(比如用一句话搜到相关的视频片段),得给每种模态各跑一个模型,各建一个索引,再写代码把结果拼起来。现在一个模型、一个索引就够了</p><p id="4CNKR8D0">Google 给了这样的例子:</p><pre><br/></pre></p><p id="4CNKR8D4">在这里,三种模态,一次调用,一个向量</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Fce30f45bg00tbq0vb00ood200m800cig00m800ci.gif&thumbnail=660x&quality=80&type=jpg" width="800" height="450" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/>belike 跑分<br/></p><p id="4CNKR8D5">默认输出 3072 维向量。支持灵活缩维(Matryoshka Representation Learning),缩小之后跑分几乎不掉:</p><p><ul><li id="4CNKR8ED"></p><p id="4CNKR8D6">•<strong>3072 维</strong>:MTEB 68.17</p><p></li><li id="4CNKR8EE"></p><p id="4CNKR8D7">•<strong>2048 维</strong>:MTEB 68.16</p><p></li><li id="4CNKR8EF"></p><p id="4CNKR8D8">•<strong>1536 维</strong>:MTEB 68.17(比 2048 还高 0.01)</p><p></li><li id="4CNKR8EG"></p><p id="4CNKR8D9">•<strong>768 维</strong>:MTEB 67.99</p><p></li></ul></p><p id="4CNKR8DA"><strong>768 维的存储成本是 3072 维的四分之一,跑分只掉了 0.18</strong></p><p id="4CNKR8DB">有个反直觉的细节:1536 维的分数比 2048 维略高。Google 建议开发者优先用 3072、1536、768 三个档位</p><p id="4CNKR8DC">补个背景。前代目前仍然排在 MTEB English 榜第一,均分 68.32,领先第二名 5 分多。Embedding 2 在纯文本上没拉开明显差距,核心增量在多模态</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2F0015ef87j00tbq0vb0017d200rs00g2g00rs00g2.jpg&thumbnail=660x&quality=80&type=jpg" width="1000" height="578" onload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" /><br/>Gemini Embedding 2 benchmarks 定价<ul><li id="4CNKR8EH"><br/></p><p id="4CNKR8DD">• 文本:<strong>$0.20 / 百万 tokens</strong></p><p></li><li id="4CNKR8EI"></p><p id="4CNKR8DE">• Batch API:半价,<strong>$0.10 / 百万 tokens</strong></p><p></li><li id="4CNKR8EJ"></p><p id="4CNKR8DF">• 图片、音频、视频:按 Gemini API 标准媒体 token 费率</p><p></li></ul></p><p id="4CNKR8DG">做个对比:</p><p><ul><li id="4CNKR8EK"></p><p id="4CNKR8DH">• 前代(纯文本):$0.15 / 百万 tokens</p><p></li><li id="4CNKR8EL"></p><p id="4CNKR8DI">• OpenAI(纯文本):$0.13 / 百万 tokens</p><p></li><li id="4CNKR8EM"></p><p id="4CNKR8DJ">• Cohere(文本 + 图片):$0.12 / 百万 tokens</p><p></li></ul></p><p id="4CNKR8DK">多了音频、视频、PDF 三种模态,价格比前代涨了 33%。考虑到能力的增量,这个溢价不高</p><p>竞品</p><p id="4CNKR8DL">多模态 embedding 不是没人做过:</p><p><ul><li id="4CNKR8EN"></p><p id="4CNKR8DM">• Cohere Embed v4:文本 + 图片,不支持音频和视频,128K tokens 长上下文</p><p></li><li id="4CNKR8EO"></p><p id="4CNKR8DN">• CLIP 系列 / Jina CLIP v2:图片 + 文本</p><p></li><li id="4CNKR8EP"></p><p id="4CNKR8DO">• Nomic:图片 + 文本</p><p></li></ul></p><p id="4CNKR8DP">Gemini Embedding 2 是第一个在一个商用 API 里覆盖五种模态 + 100 语言的</p><p id="4CNKR8DQ">开源侧追得快。NVIDIA 的领跑多语言 MTEB,Qwen3-Embedding-8B 拿到 70.58 分,支持 32 到 4096 灵活维度。但这些目前都还是纯文本</p><p id="4CNKR8DR">几个明确的问题:</p><p id="4CNKR8DS"><strong>向量空间不兼容</strong><br/>和的向量空间完全不同。想升级,只能把整个数据集全部重新编码一遍,重建索引。没有渐进迁移的办法</p><p id="4CNKR8DT"><strong>音频限制紧</strong><br/>80 秒上限,只支持 MP3 和 WAV。30 分钟的会议录音要切成 20 多段</p><p id="4CNKR8DU"><strong>视频 128 秒</strong><br/>超过两分钟就要自己分片</p><p id="4CNKR8DV"><strong>PDF 最多 6 页</strong><br/>合同、研报、论文基本都超</p><p id="4CNKR8E0"><strong>还在 Public Preview</strong><br/>API 容量可能有限,规格在正式发布前可能还会变。做原型没问题,上生产要掂量</p><p>早期反馈</p><p id="4CNKR8E1">Google 引用了法律科技公司 Everlaw 的 CTO Max Christoff 的说法。他们用 Gemini 多模态 embedding 做诉讼发现(从海量证据里找关键信息),百万级记录上精确率和召回率都有提升,图片和视频搜索是之前完全没有的能力</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Fcf704f4bj00tbq0vd0031d200u000gvg00u000gv.jpg&thumbnail=660x&quality=80&type=jpg"/><br/>Everlaw CTO 反馈 接入方式<br/></p><p id="4CNKR8E2">模型名,通过 Gemini API 或 Vertex AI 调用</p><p id="4CNKR8E3">已支持:LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB、Pinecone、Vector Search</p><p id="4CNKR8E4">Google 做了个多模态语义搜索的 demo,可以直接试看这里:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0311%2Fd8cf1235j00tbq0ve00h0d200u000iyg016800qn.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p>
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/217283.html