👦🏻 作者: 镜山
🥷 编辑: Koji
🧑🎨 排版: NCon
今年年初,很多人本来在玩 OpenClaw,因为它的 Logo 是一只龙虾,社区里大家都自称「虾农」。结果 一出,OpenClaw 的热度肉眼可见地开始往另一边转移。
一时间,社交媒体上到处都是「养马」的截图。Hermes Agent 被叫作「爱马仕 Agent」,GitHub 短时间内冲到近十万星。「虾农」们开始变成「马主」。
在大家现在聊的词中,多了一个词反复出现:Harness,被誉为继提示工程和上下文工程之后的「第三范式」。
Anthropic 把 Claude Code 的底层 SDK 叫 Agent Harness,OpenAI 专门发了篇讲 Harness engineering 的博文,评测榜单 TerminalBench 2.0 把 Harness 质量当作衡量 Coding Agent 的核心变量。
这个词,算是彻底出圈了。
视线绕回国内,MiniMax 是在往 Harness 这个方向上砸资源比较多,动作比较频繁的一家,试图构建完整的「Model + Harness」闭环。
正好在昨晚,「十字路口」团队与 Hermes
Agent 业务负责人 Tommy Eastman、
MiniMax Agent 首席架构师阿岛、Agent 研发工程师择因,在 B 站做了一场直播。这也算是 Nous Research 在中国的首次正式亮相。
在直播中,我们三方同台聊了聊 Harness 和模型到底该怎么配合这件事。
直播现场透露出一个明显的信号:MiniMax 在 「Model + Harness」上的准备,很系统。
这篇文章,主要想聊聊三件事:
【2】MiniMax 在这个方向上具体做了什么?
【3】以及,为什么这件事值得单独拿出来说。
先把这个概念说清楚,不然后面我们对 MiniMax 的讨论会缺少背景。
Harness 这个词在 AI 领域其实不是新词。
最早是从软件工程里「test harness」的概念,一套包裹被测对象、驱动输入并捕获输出的支架代码。 2021 年,EleutherAI 发布了一个叫 lm-evaluation-harness 的评测工具,用来标准化大模型的性能测试,后来成了 HuggingFace Open LLM Leaderboard 的后端。
但 Harness 从「评测工具」变成「Agent 框架」,中间走了一段路。
2023 年,一位叫 Beren Millidge 的研究者写了一篇影响挺大的文章,提出了一个类比:LLM 是 CPU,上下文窗口是 RAM,外部数据库是磁盘,工具接口是设备驱动,而包裹它的整个 scaffold 相当于操作系统。
核心思考就一点:如果模型是硬件,那 Harness 就是那层操作系统。
这个类比后来被反复引用,奠定了后来 Harness 概念的基础。
真正让这个词出圈的,是 2026 年年初 Mitchell Hashimoto 的一篇博文:《My AI Adoption Journey》。Hashimoto 是 Terraform 的作者,他在文章里描述了自己从 AI 怀疑者变成重度使用者的过程,其中第五步专门讲了「Engineer the Harness」。
他给这个词下了一个特别直接的定义:
博文发布后不到两周,OpenAI 就发布了一篇专门讲 Harness engineering 的文章,Anthropic、LangChain 全面跟进。这个词很快在技术圈子里传开了。
那说了这么多,到底什么是 Agent Harness?
如果用一句话来概括:
落到实际工程里,Harness 一般包括这几个组件:
【2】记忆管理,让 Agent 能跨会话记住重要信息;
【3】,让 Agent 能学习和积累新的工作方式;
【4】验证反馈循环,让 Agent 能知道自己的输出是对还是错。
这四件事看起来各不相关,但说到底就是一件事:给模型配上一整套运行环境,让它真正变成可用的 Agent。
虽然 Harness 这个词听起来挺虚的,但它真的能让一个 Agent 的评分发生很大变化。
LangChain 在 2026 年初做过一次实验:在 TerminalBench 2.0 测试里,固定同一个模型(用的是 gpt-5.2-codex),只更换 Harness,工程团队把编码 Agent 的得分从 52.8% 提升到了 66.5%,排名从 30 名开外直接冲到前 5。
同一个模型,换了一套运行框架,性能提升幅度比换一代模型还大。
这件事让很多人开始意识到:
说清楚 Harness 之后,接下来一个问题就出来了:Harness 很重要,但光有 Harness 行不行?
答案是不行。
框架搭得再完善,模型调不准工具、调不准指令,整个系统还是跑不起来。所以问题变成了:Harness 重要,Model 也同样必要,那这两者能不能形成一个互相促进的闭环?
框架层的需求直接反馈到模型层,模型层的进步直接体现在框架层?
这个问题,国内很多 AI 厂商都在尝试回答。在大量摸索中,MiniMax 的动作算是比较显眼的。不只提供模型 API,在模型端,它做了一系列模型,包括 、在 Harness 方向,又做了 MaxClaw、 等,整体的方向都指向同一个点:自己的 Model + Harness 生态。
从时间线上看,这三条线的推出节奏很有意思。
先说模型端,M2.7 今年三月刚发布。从去年 10 月到今年 3 月,108 天里连推 M2、M2.1、M2.5、M2.7 四代,这个更新节奏很迅速,但 M2.7 真正值得看的,是它的优化方向变了,重点在于几个传统评测体系里不太会出现的指标:工具调用准确度、复杂 Skills 遵循率、Agent Harness 适配能力。
我们曾在《》一文中,实测了该模型的完整能力,用它做了多个实际生产力工具。
这些数字背后还有一个更核心的能力:M2.7 能自我进化。它能自动监控实验状态、读取日志排查问题、执行代码修复、跑冒烟测试,在 RL 场景里能独立完成 30% 到 50% 的工作流。
到了年初 OpenClaw 爆火的时候,MiniMax 做出了第一批云端托管版本的龙虾—— MaxClaw。OpenClaw 的核心是 Skills 系统和自我进化能力,它的创始人 Peter Steinberger 当时连发推文称赞 M2.1 模型在工具调用和性价比上的表现。
MaxClaw 把 OpenClaw 这套能力云端化了,保留了 Skills 精选和持续进化的核心特性,把部署门槛降到接近零,用户不需要懂技术,直接上手用。
我们也在《》一文中,实际将 MaxClaw 部署进了 Slack 中,并完整用它走完了「整理 CVPR 2026 的 GitHub 仓库,定时汇报、监控、归类,到点自动汇报,更新列表,顺便做分类」的工作流:
再往后 Hermes Agent 火起来的时候,MiniMax 又迅速跟进了 MaxHermes。Hermes Agent 是 Nous Research 开源的一个自我进化 AI Agent,MIT 协议。
它的核心能力有 2 块:
【1】一是自进化的 Skills 系统,能从使用经验中自动创建新技能、在使用中持续改进;
【2】二是全平台接入,能通过 Gateway 连接 15 个以上的聊天平台,包括飞书、钉钉、企业微信这类本土 IM。
Skills 自进化架构设计得很优雅,但开源版本有一个绕不开的问题:需要自己搭环境、配 API Key、管理服务器,门槛拦住了很多人,这也是 MaxHermes 的位置。
MaxHermes 把整个开源版本封装成云端服务,一键启动,把门槛从「需要技术背景」拉平到「会用手机就能上手」,部署完之后 Agent 直接跑在本土办公环境里,不用自己折腾。
我们也实际上手走完了一遍完整流程,在 MiniMax Agent 官网,只需要点击一下「MaxHermes」就能直接使用:
在我们的深度使用中,发现 MaxHermes 很适合做一些多步骤,比较复杂的任务,然后再将其自动归纳成 Skills。比如我们其实一直在往 GitHub 上上传一些自己做的 Vibe Tools 项目,但是维护开源项目其实也是需要一些精力的,这时候就可以用 MaxHermes 帮忙做这些事。
提示词如下;
我负责维护一个开源项目 [XXX 的 GitHub 用户名]/[XXX的仓库名],希望你每周一上午帮我生成一份"上周仓库运营周报"并发到我的 Telegram。这周先手动跑一次,我会在过程中给你反馈,你确认跑通后把流程沉淀成 Skill,之后每周一早上 9 点自动执行。周报需要包含以下内容:1.数据概览-上周(周一 00:00 至周日 23:59,东八区)新增 Star / Fork / Watcher 数 -对比再上一周的增长率-按日画一个简单的文本趋势(不需要图,用字符柱状图就行)1.Issue 动态-新开 Issue 分类统计:bug / feature request / question / 其他-被关闭的 Issue 中,平均响应时间和平均关闭时间-列出仍 open 且超过7 天无人响应的 Issue,按 reaction 数排序前 5 条 1.PR 动态-新开 / 已合并 / 已关闭的 PR 数-贡献者列表(区分首次贡献者,首次贡献者要特别标出)-合并耗时最长的3 个 PR,以及耗时最短的 3 个 1.需要我关注的事项-你判断"我应该本周处理"的 issue 或 PR,最多 5 条,附理由 -如果有首次贡献者,提醒我去写感谢语输出格式:Markdown,Telegram 推送时转换为纯文本排版。文件同时保存一份到 ~/reports/weekly/YYYY-WW.md 方便我归档。开跑吧。过程中遇到不确定的地方问我,不要瞎猜。
MaxHermes 的流程比较快,所有内容都会存到云服务器的目录里,然后它会自动将整个多步骤流程沉淀成 Skill 并设置成每周一定时执行:
或者让 MaxHermes 关注 Polymarket 上的热门预测市场,每天早上 8:30(东八区) 自动帮我生成一份"昨日 Polymarket 交易日报"并推送到我的 Telegram。
然后,先手动让它跑一次,在过程里给完反馈,跑通之后, 就让它把整套流程沉淀成 Skill:
除此之外,在「十字路口」团队与 MiniMax 、Hermes Agent 业务负责人的直播中,MiniMax 透露出它们内部有个「Agent Harness」的直观用法:内部有一个 Auto Agent 员工,可以盯住 GitHub 上可能会用到 MiniMax 模型能力的开源项目,如果这个项目出现并被判断相关性很高,这个 Agent 员工就会自主触达这个项目的开发者,邀请他们体验 MiniMax 模型或产品。
所以,把 M2.7、MaxClaw、MaxHermes 以及上面的这个「内部 AI Agent 员工」放在一起看,从模型到 Harness,它们已然成为同一套体系的不同层面,这个体系就是 MiniMax 版的「Model + Harness」。
底层是 M2.7 的模型能力,工具调用准、复杂指令跟得上、能自我迭代。中间层是 MaxClaw 和 MaxHermes,把 Skills 系统、全平台接入、验证反馈这些工程能力封装好,拿来就能用。上层是对本土 IM 生态的对接,打通了飞书、钉钉、企业微信,Agent 直接跑进真实工作流里。
三层之间还有一个特点是,它们是相互加强的。M2.7 的模型能力为 MaxHermes 和 MaxClaw 的 Harness 提供了更扎实的底层支撑,而 MaxHermes 和 MaxClaw 在产品层收到的真实需求和使用反馈,又直接反馈到 M2.7 的优化方向上。
模型层和 Harness 层不是分离的,是一起转的。
这不只是 MiniMax 一家在做的事。就在最近,Anthropic 也发布了 Claude Managed Agents 的公测版本,把云端托管的 Agent 服务正式推向市场。这意味着什么?头部公司也在往同一个方向走:模型和 Harness 不只是凑在一起跑,还在同一个体系内持续磨合、持续进化。
这套飞轮一旦转起来,后来者要追的,就从一个指标变成了一整套互相咬合的体系。
这就是 MiniMax 押注的方向,也是 2026 年 AI Agent 领域可能真正会拉开差距的地方。
一个常见的解读是:模型能力逐渐趋同,谁能把让模型真正跑起来这件事做好,谁就能在下一阶段拿到优势。这个解读有道理,但如果只看到这一层,可能还是有点简单了。
更值得看的一点是 Harness 概念的出现,把行业里一个原本模糊的问题变清晰了:
传统做法是框架先搭好,模型塞进去跑。这种方式问题不大,但问题在于,框架是为通用场景设计的,而 Agent 作为一种具体的使用形态,有自己独特的需求:工具调用要准、指令遵循要稳、长时间运行要稳。
这些能力通用模型不会天然就有,得专门去做。
MiniMax 在 M2.7 上做的事,说白了就是让模型往框架需要的样子走。这个选择做起来并不容易,意味着模型迭代的方向要改,团队内部要协调的事情也变多了。但好处是:模型和框架在同一个体系内一起迭代,互相之间的咬合程度会越来越高,瓶颈会越来越少。
模型和框架分开迭代的时代,可能快结束了。
MiniMax 同时在做 Model 和 Harness,形成了一套相对完整的闭环。这种体系化的打法,是需要时间积累的。
拉长时间来看,积累的优势会慢慢体现出来。从M2.7开始的自主进化,到一整套自研 Harness 及外界各种 Harness,MiniMax 已经在为下一个赛点提前积累经验了。
如果你写过类似文章:《 》、《 》,请联系 ,邮件内容请包括:① 个人介绍、② 你写过的 AI 评测文章。
我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代 🎪
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/271828.html