月之暗面昨晚发布了 Kimi K2.6,依旧开源。但更值得一提的是,编程能力不仅开源 SOTA 登顶,而且力压两个闭源模型。
SWE-Bench Pro 58.6,超过了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。
也就是说:一个开源模型,跑赢了目前几乎最强的两个闭源模型。
这对开源编程模型来说,应该是第一次在主流基准上取得压制优势。
(基准跑分先看硬数据)
• LiveCodeBench v6:89.6 数学和视觉方面也没落下,AIME 2026 拿了 96.4,MathVision w/ python 93.2。
不只跑分!
当然,我们知道,跑分高是一回事,能不能在真实场景里扛住长时间高强度的工作,则又是另一回事了。
而连我们都知道,Kimi 显然也知道……所以 K2.6 这次在这方面的进步,可能比跑分更值得关注。它可以,连续工作 12 小时不崩。
官方给的一个案例是:用 K2.6 在 Mac 上用 Zig 语言本地部署 Qwen3.5-0.8B 模型,整个过程涉及 4000 多次工具调用,跨越 14 轮迭代,持续了 12 个小时。
最终,它跑出 193 tokens/sec 的推理速度,比 LM Studio 快了 20%。
另一个案例更是非常地硬核:对 exchange-core 金融撮合引擎做全面重构,13 个小时,1000 多次工具调用,修改了 4000 多行代码。中等负载吞吐量提升 185%,整体性能提升 133%。
Vercel 说 K2.6 在 Next.js 基准上的表现提升了超过 50%。CodeBuddy 报告了 18% 的长上下文稳定性提升和 96.60% 的工具调用成功率。
以及,K2.6 还有一个非常实际的改进:平均步骤数比 K2.5 减少了约 35%。
更少的步骤意味着更少的 token 消耗,更少的出错机会,和更快的速度。用更短的路径走到正确答案,这其实是模型「聪明」程度的一个更加直觉的衡量方式。
内部的 Kimi Code Bench 基准测试成绩也佐证了这一点:K2.6 从 K2.5 的 57.4 提升到了 68.2,直接涨了将近 20%。
K2.5 的上限是 100 个子 Agent、1500 步,而到了 K2.6 这里,则直接拉到了 300 个子 Agent、4000 步。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/279806.html