2026 年 4 月 13 日,月之暗面通过邮件低调确认内测用户正在使用的模型是 Kimi K2.6 Code Preview。仅仅八天后,官方去掉了 "Preview" 后缀,Kimi K2.6 正式登陆 Kimi.com、Kimi App、官方 API 和 Kimi Code CLI,进入通用可用(GA)状态。
这是 K2 系列历史上最快的一次 Preview → GA 过渡。信号很明确:内部质量门槛早已达到,Vercel、Factory.ai、CodeBuddy 等合作伙伴的第三方评测已跑得足够久,验证结论可信。对于自 2025 年 7 月 K2 开源首秀起就在跟踪这条路线图的团队来说,K2.6 是 "Agentic Coding" 从 Demo 变成基础设施的那个版本。
关键不是某一项 Benchmark 的涨幅,而是 时长、广度、协同 三件事一起推进。K2.5 能把一个编码任务稳住几百步;K2.6 被设计用来稳住 12 小时、4000 步协同操作,并在单次 Swarm 中调度最多 300 个子智能体。
合作伙伴披露的相对 K2.5 的提升:
这些是独立第三方数据,不是月之暗面自己画的营销曲线——这正是它们值得看的原因。
SWE-Bench Pro 是 SWE-Bench 的进阶切分,过滤掉了较简单的"单文件修复"题,因此 58.6% 不能直接和 K2.5 在 SWE-Bench Verified 上报出的 76.8% 做横向比较。把 Pro 理解为新的诚实上限更合适。
K2.6 延续了自 2025 年 7 月以来 K2 系列的万亿参数 MoE 主干(1T 总参数 / 32B 激活参数 / 384 专家,每 token 激活 8 个,MLA 注意力、SwiGLU、MuonClip 稳定训练)。真正变化的是围绕它构建的 执行层:
发布同时公布的三个实跑案例,值得当作"存在性证明"而非营销素材来看。
K2.6 在本地以 Zig 部署 Qwen3.5-0.8B,跑到约 193 tokens/秒,在同机硬件上比 LM Studio 的参考路径快约 20%。真正有价值的不是吞吐数字,而是模型选择了 Zig——相对 Python、Rust 训练语料少得多的系统语言——依然产出了可运行的底层运行时。这是系统编程方向真正需要看到的能力边界。
面对开源的 exchange-core 金融撮合引擎,K2.6 实现了 中位数 185% 的吞吐提升。任务要求阅读一个陌生的 Java 代码库、识别热点路径、改写而不破坏撮合不变量。这是"一个资深工程师进入新项目"的典型工作负载,也是此前大多数模型会悄悄翻车的地方——它们产出看似合理的 diff,但破坏正确性。
K2.6 能生成带动效的完整前端,并接入鉴权和数据库。Vercel 报告的 >50% Next.js 基准提升与此直接对应——App Router、Server Components 及其生态是大多数模型仍在幻觉 API 的地方,K2.6 看起来已经把这部分差距补上了大半。
月之暗面近一年来保持了 2-3 个月一次大版本的节奏。K2.6 是第一次 Preview 到 GA 以"天"而非"月"计算——这很重要,意味着下一次发布(K3)可能会沿用这条压缩过的时间线。
K2.6 今日已在四个入口上线:
- Kimi.com 与 Kimi App——交互式体验 Agent Swarm 最快的方式。
- 官方 API——默认采样参数
temperature=1.0, top_p=1.0。不要下意识调低,整个 agentic loop 就是在这套参数下调优的。 - Kimi Code CLI——长时编码任务的推荐入口,默认接好了工具调用、文件系统访问与 Swarm 监督者。
- 定价——参见
kimi.com/membership/pricing。长时自治运行会消耗可观的 token,按会话而非按请求做预算。
K2.6 之前流出的 Reddit 泄露同时提到了 Kimi K3,据称目标参数规模 3-4 万亿,对标美国前沿模型的体量。K2.6 的 GA 发布让这个传闻更可信:12 小时执行窗口和 300 智能体 Swarm 是能够平滑放大到更大基础模型上的能力,而月之暗面不会投入这套执行层基础设施——除非真的有更大的模型即将到来消耗它。
K2.6 不是终点,而是为 K3 到来时准备好的跑道。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/272865.html