月之暗面刚刚开源了Kimi K2.6,直接把 Agent 能力拉到了一个新高度

一句话总结
Kimi K2.6 是目前最强的开源原生多模态 Agent 模型
1T 参数 MoE 架构,32B 激活参数,256K 上下文,原生支持图片和视频输入,还能同时指挥 300 个子 Agent 协同执行 4000 步任务
说白了,这次升级的核心不是"更聪明",而是"更能干"——从一个会思考的模型,进化成了一个能自主执行复杂任务的 Agent 引擎
模型架构
K2.6 延续了 K2.5 的 MoE 架构,参数规模没变,但能力大幅跃升:
参数
规格
总参数量
1T
激活参数
32B
层数
61(含 1 层 Dense)
专家数
384
每 Token 激活专家数
8
上下文长度
256K
注意力机制
MLA
激活函数
SwiGLU
视觉编码器
MoonViT(400M)
词表大小
160K
跟 K2.5 架构完全一致,部署方法可以无缝复用
这对运维来说是好消息——换模型不用换部署流程
四大核心能力
K2.6 这次主打四个方向,每一个都指向"干活":
1. 长程编程(Long-Horizon Coding)
不是写个函数那种小活儿,是端到端的复杂编程任务——跨语言(Rust、Go、Python 都行)、跨领域(前端、DevOps、性能优化全覆盖)。看看 Terminal-Bench 2.0 的成绩:K2.6 拿了 66.7 分,GPT-5.4 和 Claude Opus 4.6 都是 65.4。SWE-Bench Pro 更直接,K2.6 拿了 58.6,GPT-5.4 是 57.7,Claude 只有 53.4
2. 代码驱动设计(Coding-Driven Design)
简单一句话 prompt 甚至一张图,K2.6 就能给你生成生产级的前端界面——结构化布局、交互元素、动画效果一步到位。这个能力对全栈开发者来说太香了。
下面是 Kimi Design Bench 的测试结果,在四大类设计任务上 K2.6 表现很强:

Kimi Design Bench 设计能力测试
3. Agent 集群(Elevated Agent Swarm)
这个是我最激动的
K2.6 能横向扩展到300 个子 Agent,协同执行 4000 步任务。它可以动态把一个大任务拆解成并行的专业化子任务,一次性输出文档、网站、电子表格等多种交付物
BrowseComp Agent Swarm 测试里,K2.6 拿了 86.3 分,GPT-5.4 只有 78.4——Agent 编排能力已经是开源模型里的天花板了
4. 主动式编排(Proactive & Open Orchestration)
K2.6 能驱动 7×24 小时后台运行的自主 Agent,主动管理日程、执行代码、跨平台操作,不需要人盯着。月之暗面自家 RL 基础设施团队用 K2.6 驱动的 Agent连续自主运行了 5 天,负责监控、故障响应和系统运维。
Claw Bench 内部评测显示,K2.6 在持续自主运行场景下比 K2.5 有显著提升:

Kimi Claw Bench 自主 Agent 能力评测
配合 Kimi Code CLI(https://www.kimi.com/code),体验**
跑分解读:和顶级闭源模型正面硬刚
K2.6 的对手是 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 这些顶级闭源模型。看看关键数据:
Agent 能力(最亮眼):
测试项
K2.6
GPT-5.4
Claude Opus 4.6
K2.5
HLE-Full(带工具)
54.0
52.1
53.0
50.2
DeepSearchQA(准确率)
83.0
63.7
80.6
77.1
BrowseComp(Agent Swarm)
86.3
78.4
MCPMark
55.9
62.5
56.7
29.5
Claw Eval(pass^3)
62.3
60.3
70.4
52.3
OSWorld-Verified
73.1
75.0
72.7
63.3
在 DeepSearchQA 上,K2.6 的准确率 83.0% 比 GPT-5.4 的 63.7% 高了接近 20 个点,这差距太大了
HLE-Full(带工具)上也超过了所有闭源模型
编程能力:
测试项
K2.6
GPT-5.4
Claude Opus 4.6
K2.5
Terminal-Bench 2.0
66.7
65.4
65.4
50.8
SWE-Bench Pro
58.6
57.7
53.4
50.7
SWE-Bench Verified
80.2
80.8
76.8
LiveCodeBench v6
89.6
88.8
85.0
编程方面跟 GPT-5.4 和 Claude 基本持平甚至略有优势,作为开源模型,这个成绩很炸裂
相比 K2.5 的跃升:
最能说明问题的是跟自家 K2.5 的对比:
MCPMark:29.5 → 55.9(近乎翻倍)
APEX-Agents:11.5 → 27.9(翻了 2.4 倍)
Terminal-Bench 2.0:50.8 → 66.7(+15.9)
BrowseComp:74.9 → 83.2
Claw Eval pass^3:52.3 → 62.3
MCPMark 的跃升最能说明问题——K2.5 对工具调用还比较生疏,K2.6 已经轻车熟路了。
部署方式
K2.6 跟 K2.5 架构相同,部署流程完全复用。官方推荐三个推理引擎:
vLLM 部署(推荐):
# 安装 vLLM(稳定版推荐 0.19.1)
uv pip install -U vllm
--torch-backend=auto
--extra-index-url https://wheels.vllm.ai/nightly
# 启动服务(H200 单机 TP8)
vllm serve $MODEL_PATH -tp 8
--mm-encoder-tp-mode data
--trust-remote-code
--tool-call-parser kimi_k2
--reasoning-parser kimi_k2
注意两个关键参数:--tool-call-parser kimi_k2开启工具调用,--reasoning-parser kimi_k2开启思考模式。
SGLang 部署:
# 安装 SGLang
pip install "sglang @ git+https://github.com/sgl-project/sglang.git=python"
pip install nvidia-cudnn-cu12==9.16.0.29
# 启动服务
sglang serve --model-path $MODEL_PATH --tp 8
--trust-remote-code
--tool-call-parser kimi_k2
--reasoning-parser kimi_k2
KTransformers 部署(消费级显卡也能跑!):
这个是重点——KTransformers 支持 CPU+GPU 异构推理,8 张 L20 + Intel CPU 就能跑起来,Prefill 640 tokens/s,Decode 24.5 tokens/s(48 并发)。更绝的是,配合 LLaMA-Factory 做 LoRA 微调,2 张 4090 就能搞定,训练吞吐 44.55 tokens/s。
# KTransformers + SGLang 异构推理
python -m sglang.launch_server
--model /path/to/kimi-k2.6
--kt-weight-path /path/to/kimi-k2.6
--kt-cpuinfer 96
--kt-num-gpu-experts 30
--kt-method RAWINT4
--tensor-parallel-size 4
--trust-remote-code
transformers版本要求:>=4.57.1, <5.0.0
API 使用
K2.6 支持 Thinking 模式和 Instant 模式,API 兼容 OpenAI 和 Anthropic 格式:
import openai
client = openai.OpenAI(
base_url="https://platform.moonshot.ai/v1",
api_key="YOUR_API_KEY"
)
# Thinking 模式(默认,推荐 temperature=1.0)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[{"role": "user", "content": "解释量子纠缠"}],
max_tokens=4096
)
# response.choices[0].message.reasoning ← 思考过程
# response.choices[0].message.content ← 最终回答
# Instant 模式(推荐 temperature=0.6)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[{"role": "user", "content": "解释量子纠缠"}],
max_tokens=4096,
extra_body={"thinking": {"type": "disabled"}}
)
K2.6 还支持一个实用功能:Preserve Thinking——多轮对话中保留完整的推理链,对 Coding Agent 场景特别有用
另外,图片和视频输入也都支持(视频目前仅限官方 API)
我的观点
说几个让我印象深刻的点:
1. Agent 集群能力是真正的差异化
GPT-5.4 和 Claude 在单步推理上依然强悍,但 K2.6 在 Agent 编排层面做出了差异化。300 个子 Agent 协同 4000 步,这个能力在开源世界里没有对手。BrowseComp Agent Swarm 的 86.3 vs GPT-5.4 的 78.4,差距一目了然
2. 从 K2.5 到 K2.6 的进步幅度惊人
MCPMark 翻倍、APEX-Agents 翻 2.4 倍,这说明月之暗面在 Agent 能力上做了非常多针对性的优化。K2.5 在工具调用上还有点笨拙,K2.6 已经很丝滑了。
3. 部署门槛在降低
KTransformers 让 L20 甚至 4090 用户也有机会跑万亿参数模型,虽然速度不算快,但至少让更多人能体验到。LoRA 微调只要 2 张 4090,这个门槛对很多团队来说已经可以接受了。
不足之处也得说:
在纯推理任务(AIME、HMMT、HLE-Full 无工具)上,跟 GPT-5.4 和 Gemini 3.1 Pro 还有差距
BabyVision 得分 39.8 远低于 GPT-5.4 的 49.7,视觉理解还有提升空间
1T 参数的部署成本依然不低,H200 单机 TP8 才是推荐配置
Modified MIT License,商用需要注意许可条款
总结
Kimi K2.6 的定位非常清晰:开源世界的最强 Agent 模型
它不追求在所有维度碾压闭源模型,而是在 Agent 编排、工具调用、长程编程这些"干活"场景上做到了最好
如果你在做 AI Agent 相关的产品,K2.6 值得认真评估
.6
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/272642.html