月之暗面昨晚发布了 Kimi K2.6,依旧开源。但更值得一提的是,编程能力不仅开源 SOTA 登顶,而且力压两个闭 ……

月之暗面昨晚发布了 Kimi K2.6,依旧开源。但更值得一提的是,编程能力不仅开源 SOTA 登顶,而且力压两个闭 ……p 月之暗面昨晚发布了 Kimi K2 6 依旧开源 但更值得一提的是 编程能力不仅开源 SOTA 登顶 而且力压两个闭源模型 p SWE Bench Pro 58 6 超过了 GPT 5 4 xhigh 和 Claude Opus 4 6 max effort 也就是说 一个开源模型 跑赢了目前几乎最强的两个闭源模型 这对开源编程模型来说

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

月之暗面昨晚发布了 Kimi K2.6,依旧开源。但更值得一提的是,编程能力不仅开源 SOTA 登顶,而且力压两个闭源模型。

SWE-Bench Pro 58.6,超过了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。

也就是说:一个开源模型,跑赢了目前几乎最强的两个闭源模型。

这对开源编程模型来说,应该是第一次在主流基准上取得压制优势。

(基准跑分先看硬数据)

• LiveCodeBench v6:89.6 数学和视觉方面也没落下,AIME 2026 拿了 96.4,MathVision w/ python 93.2。

不只跑分!

当然,我们知道,跑分高是一回事,能不能在真实场景里扛住长时间高强度的工作,则又是另一回事了。

而连我们都知道,Kimi 显然也知道……所以 K2.6 这次在这方面的进步,可能比跑分更值得关注。它可以,连续工作 12 小时不崩。

官方给的一个案例是:用 K2.6 在 Mac 上用 Zig 语言本地部署 Qwen3.5-0.8B 模型,整个过程涉及 4000 多次工具调用,跨越 14 轮迭代,持续了 12 个小时。

最终,它跑出 193 tokens/sec 的推理速度,比 LM Studio 快了 20%。

另一个案例更是非常地硬核:对 exchange-core 金融撮合引擎做全面重构,13 个小时,1000 多次工具调用,修改了 4000 多行代码。中等负载吞吐量提升 185%,整体性能提升 133%。

Vercel 说 K2.6 在 Next.js 基准上的表现提升了超过 50%。CodeBuddy 报告了 18% 的长上下文稳定性提升和 96.60% 的工具调用成功率。

以及,K2.6 还有一个非常实际的改进:平均步骤数比 K2.5 减少了约 35%。

更少的步骤意味着更少的 token 消耗,更少的出错机会,和更快的速度。用更短的路径走到正确答案,这其实是模型「聪明」程度的一个更加直觉的衡量方式。

内部的 Kimi Code Bench 基准测试成绩也佐证了这一点:K2.6 从 K2.5 的 57.4 提升到了 68.2,直接涨了将近 20%。

K2.5 的上限是 100 个子 Agent、1500 步,而到了 K2.6 这里,则直接拉到了 300 个子 Agent、4000 步。

小讯
上一篇 2026-04-27 13:55
下一篇 2026-04-27 13:53

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/279806.html