月之暗面昨晚发布了 Kimi K2.6，依旧开源。但更值得一提的是，编程能力不仅开源 SOTA 登顶，而且力压两个闭 ……

科技前沿 • 2026-04-27 13:54 • 阅读 1

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 月之暗面昨晚发布了 Kimi K2.6，依旧开源。但更值得一提的是，编程能力不仅开源 SOTA 登顶，而且力压两个闭源模型。

SWE-Bench Pro 58.6，超过了 GPT-5.4（xhigh）和 Claude Opus 4.6（max effort）。

也就是说：一个开源模型，跑赢了目前几乎最强的两个闭源模型。

这对开源编程模型来说，应该是第一次在主流基准上取得压制优势。

（基准跑分先看硬数据）

• LiveCodeBench v6：89.6 数学和视觉方面也没落下，AIME 2026 拿了 96.4，MathVision w/ python 93.2。

不只跑分！

当然，我们知道，跑分高是一回事，能不能在真实场景里扛住长时间高强度的工作，则又是另一回事了。

而连我们都知道，Kimi 显然也知道……所以 K2.6 这次在这方面的进步，可能比跑分更值得关注。它可以，连续工作 12 小时不崩。

官方给的一个案例是：用 K2.6 在 Mac 上用 Zig 语言本地部署 Qwen3.5-0.8B 模型，整个过程涉及 4000 多次工具调用，跨越 14 轮迭代，持续了 12 个小时。

最终，它跑出 193 tokens/sec 的推理速度，比 LM Studio 快了 20%。

另一个案例更是非常地硬核：对 exchange-core 金融撮合引擎做全面重构，13 个小时，1000 多次工具调用，修改了 4000 多行代码。中等负载吞吐量提升 185%，整体性能提升 133%。

Vercel 说 K2.6 在 Next.js 基准上的表现提升了超过 50%。CodeBuddy 报告了 18% 的长上下文稳定性提升和 96.60% 的工具调用成功率。

以及，K2.6 还有一个非常实际的改进：平均步骤数比 K2.5 减少了约 35%。

更少的步骤意味着更少的 token 消耗，更少的出错机会，和更快的速度。用更短的路径走到正确答案，这其实是模型「聪明」程度的一个更加直觉的衡量方式。

内部的 Kimi Code Bench 基准测试成绩也佐证了这一点：K2.6 从 K2.5 的 57.4 提升到了 68.2，直接涨了将近 20%。

K2.5 的上限是 100 个子 Agent、1500 步，而到了 K2.6 这里，则直接拉到了 300 个子 Agent、4000 步。