小米罗福莉。图片经过AI处理
文丨晓静
编辑丨苏扬
4月23日,小米发布新一代旗舰模型,并官宣公测。
按照官方说法,这次升级主要集中在通用智能体能力、更复杂的软件工程任务,以及更长链条任务中的稳定执行。小米同时称,该模型已上线 API Platform、AI Studio 等入口,价格维持不变。
小米表示,搭配适当的执行框架,V2.5-Pro可持续完成跨越逾千次工具调用的复杂任务,并在超长上下文中保持强健的逻辑连贯性。

从官方展示的案例看,这一代模型确实把重点放在了长程自主执行上。比如在北京大学编译原理课程的 SysY 编译器任务中,MiMo-V2.5-Pro 在 4.3 小时内完成 672 次工具调用,从零实现了一个完整编译器,并在隐藏测试集中拿到 233/233。
另一个案例是桌面视频编辑器,官方称模型用了 11.5 小时、1868 次工具调用,生成了 8192 行代码的可运行产品。
上述三项实验,V2.5-Pro 的“”能力表现可圈可点:充分利用执行框架环境的各项功能,主动管理自身记忆,并有针对性地组织上下文内容以服务于最终目标。
小米把这套能力概括为“ awareness”,也就是对执行框架的感知和利用能力。当下AI领域的竞争焦点,的确正在从“单轮回答质量”转向“长流程的稳定运行”。上个月在公开场合谈 MiMo-V2-Pro 时,也把重点放在了 agent 负载和高 token 消耗的场景上。

在具体能力表现上,MiMo-V2.5-Pro持续强化其在软件工程领域的优势。
在小米自研的MiMo Coding Bench评测套件中,V2.5-Pro以73.7分的成绩超越前代V2-Pro的71.5分,并领先Gemini 3.1 Pro的 67.8分,与Claude Opus 4.6的77.1分的差距持续收窄。该套件覆盖代码仓库理解、项目构建、代码审查、软件工程等多类真实开发场景。
在通用智能体能力方面,V2.5-Pro在用于评测大语言模型在通用智能体任务上综合能力的基准测试上取得72.9分,与Claude Opus 4.6的72.4分和GPT-5.4的72.9分持平,显示出在跨任务智能体协作上已达到国际前沿水平。
在考察模型知识边界的Humanity‘s Last Exam测试中,V2.5-Pro取得48.0分,较前代 V2-Pro的40.0分提升明显,与Claude Opus 4.6的53.0分、GPT-5.4的58.7分的差距仍在持续缩小。
MiMo-V2.5 全系列针对进行了系统性优化,在实现前沿级能力的同时,大幅压缩每条轨迹所需的Token消耗。

在三次通过率测试中,V2.5-Pro以约70K Token每轨迹的消耗达到64% 的得分,比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4在同等能力水平下节省约 40%至60%的Token用量。
横向对比同级竞品,在达到相同Claw-Eval分数的前提下,MiMo-V2.5-Pro相比Kimi K2.6节省了42%的Token,MiMo-V2.5相比Muse Spark节省了50%的Token。更高的分数、更低的成本,是MiMo-V2.5系列在效率维度上主打的竞争优势。
不过,目前案例和评测得分基本都还是小米自建任务和小米自报结果。比如 MiMo Coding Bench 本身就是小米内部评测集,与绝对能力水平评分相比,更能说明模型迭代方向。Artificial Analysis 上月给 MiMo-V2-Pro 的结论是:综合智能指数 49,位于 GLM-5之后、Kimi K2.5 之前;优势是成本和 token效率更好,但在更高层级的前沿模型面前仍有差距。

4月23日模型发布后,就有开发者在社交平台晒出一组个人对比测试,称本地运行在 RTX 5090 上的 Qwen 3.6 27B,在 coding、math、explanation、debugging 和 creative 等维度的主观对比中,整体得分略高于 MiMo-V2.5-Pro。
这样的测试当然不具备严格 benchmark 的效力,样本量、任务集、提示词和执行条件也都未必可复现,但也说明,在外部开发者群体里,MiMo-V2.5-Pro 还没有形成“性能已经坐稳一线”的共识,真实口碑仍处在边跑边验证的阶段。
另外,MiMo-V2-Pro 上线后,Artificial Analysis 明确提到它的优势:低幻觉倾向和较高token 效率;外媒此前也报道,MiMo-V2-Pro 上传 OpenRouter 后处理了超过 1.5 万亿 token,说明它在开发者侧确实获得了关注。
整体来看,MiMo-V2.5-Pro发布的关注点在于,第一,小米MiMo更明确地押注 agent 和长程执行,这是方向上的变化。第二,它已经拿出了一批足够“硬”的案例,证明自己已经走向了生产级工具模型市场。
只是到目前为止,这还是一张很有进攻性的成绩单,还需要被广泛验证的行业共识。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/278663.html