AIPress.com.cn报道
4月21日消息,月之暗面(Moonshot AI)发布并开源Kimi K2.6模型,在代码生成、长程任务执行及Agent集群能力上实现全面精进,多项基准测试成绩持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。
Kimi K2.6现已上线kimi.com、最新版Kimi应用、Kimi API及Kimi Code编程助手。在博士级难度的Humanity's Last Exam(完整版)、真实软件工程能力评测SWE-Bench Pro、Agent深度检索能力测试DeepSearchQA等基准中,该模型均取得行业领先成绩。
代码能力是此次升级的核心亮点。K2.6在Kimi内部严格代码评测基准Kimi Code Bench中得分68.2,较前代K2.5的57.4提升约20%。
实测显示,该模型可连续编码13小时,编写或修改超过4000行代码,完成复杂系统的开发与优化。
通过代码与视觉能力的深度融合,K2.6将代码驱动的设计能力提升到了新高度,可交付极具设计创意的专业级Web应用。
在实测案例中,K2.6成功在Mac本地下载并部署Qwen3.5-0.8B模型,使用小众Zig语言实现并优化模型推理。
经过4000多次工具调用、超过12小时不间断运行、14轮迭代,将吞吐量从约15 tokens/s提升至约193 tokens/s,最终比LM Studio快20%。
另一案例中,K2.6自主完成对拥有8年历史的开源金融撮合引擎exchange-core的深度重构,历经13小时连续作业、12套优化策略迭代、1000余次工具调用,对4000多行代码进行精准修改,最终实现中位吞吐量跃升185%、峰值吞吐量提升133%。
K2.6驱动的Agent集群架构迎来重大升级,现支持300个子Agent并行完成4000个协作步骤,任务完成度与交付质量较K2.5显著提升。
针对OpenClaw、Hermes Agent等主动式Agent框架,K2.6展现出极强的自动化任务处理能力,支持长达5天的持续自主运行。
Baseten、Blackbox AI、CodeBuddy、Factory(Droid)、飞书妙搭、Fireworks AI、Nous Research(Hermes Agent)、Kilo Code、Ollama、OpenCode、Qoder和Vercel等企业客户已提前测试该模型。
Baseten评价K2.6在编程任务上已可与领先闭源模型掰手腕,对第三方框架底层逻辑理解更深;Blackbox AI称其指令遵循能力更强,能挖掘出深藏不露的隐蔽Bug;CodeBuddy内部评测显示代码生成准确率提升12%,长上下文稳定性提升18%,工具调用成功率达96.60%。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/276006.html