MiniMax 真正想做的,是模型与 Harness 的双进化!

MiniMax 真正想做的,是模型与 Harness 的双进化!p style text align center span span Datawhale 干货 span span p p style text align center strong 作者 平凡 strong p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

Datawhale干货

作者:平凡,英国Northumbria University讲师,

计算机博士

不知道你有没有留意过,大模型或者现在的 Agent,跟你说的第一句话, 其实已经在悄悄暴露它们对“自己是什么”的理解了。

ChatGPT 跟你说的是 “Ask anything”。意思很明确:你可以问我任何事情。 价值在一问一答里面。

DeepSeek的甚至更简短一些,简化成“给DSeek 发送信息”。

OpenClaw 理论上可以处理绝大多数事情, 但它的对话界面甚至简单到没有什么提示,默认你已经知道它会干什么。

直到最近我看到 MaxHermes,它的第一句话突然让我停了一下 。因为它说的不是“你可以问我”,而是我们一起做事:

这几句话看起来很抽象,但如果把它和前面几家的开场白放在一起看, 会发现它背后已经不是同一种产品哲学了。

开场白背后是不同的产品哲学

前两代Chatbot产品,核心逻辑还是“输入一个 prompt,返回一个结果”;即使是爆火的 OpenClaw,也要求你本身懂,才能做到这件事情。

这些产品开场白的差异,表面上看只是交互设计,底下其实对应着两种完全不同的系统假设。

一种假设是:模型的主要价值,发生在单轮 prompt-response 里;

另一种假设是:模型的主要价值,发生在一个更长的执行链条里:它要调工具、要读状态、要记上下文、要沉淀经验,甚至要把高频动作固化成 skill。

一旦系统假设变了,竞争焦点就会跟着变。

比的就不再只是“这次答得强不强”,而是模型能不能在一个持续运行的任务框架里,稳定输出价值,并把价值沉淀为下一轮的能力。

Harness 登场,模型只是引擎

而有意思的是,就在 4 月 17 日晚 MiniMax 和 Hermes Agent 团队的那场直播里,这个问题其实被更明确地摊开来讲了。

当晚, MiniMax 邀请到全球现象级 AI Agent 项目 Hermes Agent(95,000+ GitHub Star)背后团队 Nous Research 产品负责人 Tommy,首次面向中国观众亮相,和 MiniMax Agent 团队一起聊了一整场 Agent 的底层问题。

对谈里反复出现的一个关键词,就是 Harness

阿岛用了一个很好懂的比喻: 模型像引擎,Harness 更像机甲本身。只有引擎,能力再强也只是空转;真正让模型进入现实任务、去调工具、接状态、处理反馈的,是外面这层系统。

这其实也解释了为什么 OpenClaw 会在前段时间突然爆火。它第一次让很多人直观地看到,Agent 不只是“更会聊”,而是真的开始进入执行环节。

某种程度上,OpenClaw 完成的是 Agent 的“行业破冰”。

但 OpenClaw 解决的,更多还是“Agent 能不能跑起来”;而这次直播让我更在意的,是 Hermes,尤其是 MaxHermes 开始回答的另一个问题:当 Agent 已经跑起来之后,它能不能在长期工作流里越用越顺手,甚至慢慢把一次次任务沉淀成下一轮的能力。

这恰恰也是我后来上手 MaxHermes 时,感受最明显的地方。

实测MaxHermes:它不是功能更多,而是会把你教它的东西"记下来"

我自己使用 MaxHermes 的时候,有个感受特别明显: 相比 OpenClaw,它提供的功能没有那么多,甚至可以说非常简陋。

但是它有一个特性:就是你越用越顺手,因为它会记住你的喜好和人格

比如我第一个任务是让MaxHermes做一个github的repo分析

帮我看看 https://github.com/NousResearch/hermes-agent这个项目,我想知道:它解决什么问题、技术栈、最近一个月活跃度、有没有竞品、值不值得我研究

提问完之后,它自主的调用了 MCP 以及 Web Search 等功能,帮我完成了这一套流程。到给出分析结果的时候,其实可以看出它跟 OpenClaw 没有特别本质性的区别,因为它做的还是拆解你的需求,然后一步步地执行,最后给出一个很完善的结果。

但是不一样的是,我的下一个需求发生了变化。因为我觉得它目前给出的内容对我刚才提出的问题来说还不够完善,所以我想让它先输出一个框架图来展示整体思路,然后再进行细分的分析。

我让它重新做了一遍,这次的结果就不一样了:它先给出了一个框架图,接着再呈现原本的内容。这个举动说明了它把我刚刚交给他的流程记住了。

紧接着,我想做一件事,就是让它把刚才这整个流程沉淀为一个 Skill,并告诉它一个规律:下次当我再发送 GitHub Report 链接的时候,就按照这个套路来执行。

可以看到,MaxHermes 直接把刚刚的整套流程沉淀为一个 Skill,叫作 GitHub Repo Research。

为了验证他是否真的听懂了并能正确执行,我隔了一会儿又给他发了一个链接。MaxHermes收到链接后,第一步不再是直接去分析这个 GitHub Repo,而是先去已有的 Skill 里面,找到刚才创建的那个 Skill 来进行执行。

这就是我觉得 MaxHermes 跟其他的 AI Agent 产品完全不同的地方:它并不要求你刚开始就懂很多东西,而是在一步一步的沟通对话中,将一张白纸逐渐雕琢成一个作品,一个成品。

在这个过程中,你可以通过以下方式进行调整:

1. 主动干预:根据你的具体需求,主动要求它去做改动。

2. 自动迭代:它在跟你对话的过程中,会自动进行无声无息的调整。

这种无感知的使用体验,却能做到非常精准的需求把控,因为在对话过程中,你已经充分展现了自己的喜好。

再往后,我继续让它迭代这个 skill:修正错误 repo 路径、默认补充搜索、增加“进阶分析”模块、再把整个 skill 架构反向展示给我看。

可以看到,Hermes 提供了一种很聪明的机制。它会在与用户的对话中,无感知地进行自我提升

  1. 抽象工作流
  2. 自动提炼 Skill
  3. 让 Skill 库和记忆长期增长

它最终达到的效果,就是让下一次对话更加懂你,越用越顺手

详解Harness背后的机制

说到底, Hermes 这套东西能跑起来,并不依赖于某一个模型,因为它首先成立的是一套 Harness 机制

它真正解决的是如何将记忆、Scale、工具调用、任务状态和用户反馈,形成一个持续运行的闭环。没有这层闭环,再强的模型也很容易退回到“一问一答”的 Prompt-Response 模式中。

它本身并不专属于某一匹马,理论上可以接入绝大多数主流模型,无论是 GPT、Claude、MiniMax,还是 DeepSeek,都可以成为这套系统的底座。真正的问题不在于“能不能接”,而在于: 接上之后,哪匹马更好骑,哪匹马能把这套机制跑得更顺。

但就像很多时候,为什么 Claude Code在使用其自研模型时性能最强?这涉及到匹配度的问题,更强的匹配度,意味着在同样的架构下,模型能发挥出来的能力上限并不一样; 而架构能力最终能不能跑出来,也很大程度上取决于模型与这套规范之间的磨合程度。

当 Hermes 这种带有自我进化能力的 Harness 开始运行时,它至少会同时面对三个层层递进的问题。

1. 在最基础的 Tool Use 层面,能不能把工具调用真正调配好

因为一旦进入真实环境,问题就不再是“会不会调工具”,而是该不该调、什么时候调、调完之后怎么根据返回结果继续往下走。在单轮的一问一答中,Tool Use 的调用相对简单,例如常见的 MCP search 并从网页中获取结果等。但在多轮复杂的交互环境中,Skill 之间的互相调用以及不断累积的 Token,能够将 Skill 和 Tool Use 调用得非常贴合实际,这本身就能说明很多问题。

在直播内容中提到,MiniMax 在 M2.7 的 RL Pipeline 中,已经有 70% 到 80% 以上的工作是由模型加 Agent 自主完成的。

同时,在 M2.7 的技术文档中也提到,在面临超过 40个复杂的 Skill 以及单次超过 2000 个 Token 的执行环境下,它依旧能够保持 97% 的 Skill Adherence。

剩下的 20% 到 30% 工作量,人类只参与“判断与品味”的测试和选择。而这一点也恰恰是 Harness 工程的核心点之一:由人的品味和创造力来指引方向。这就是 Harness 那种“驾驭”的感觉。

2. 模型能不能支撑这套系统继续成长

Hermes 的目标从来不只是把一次任务做完,而是希望把过程里的经验沉淀下来,变成下一轮还能复用的能力。

而 M2.7 恰恰是目前第一个能够做到自我进化的模型。

它的特殊性,不只是一个“更强的模型”这么简单,更重要的是,它开始进入一个真正的自我迭代系统里,优化目标不再只盯着传统 benchmark,而是越来越明确地朝 Harness 场景收敛。

在 M2.7 的技术文档里面,专门提到了 M2 新模型的迭代系统。它的一句话介绍写的是:Human steeri at every layer, Models build at every layer.

这个点让我觉得 Hermes 要比 OpenClaw 更适合 M2.7 这个模型。

M2.7 已经在 OpenClaw 时代里被证明了它的有效性。但实际上,OpenClaw它更倚仗于模型的 Tool Use 功能。

其实 M2.7 的一个最重要的特性—自我进化,在 OpenClaw 里面并没有体现得那么强。而 Hermes 不一样,它是一个能够让模型自我进化的 Harness Agent。

一个可以自我进化的 Harness Agent,再加上一个可以自我进化的模型,这两者是一个相辅相成、互相进步的关系。

因为你一旦想让 Agent 真正进入工作流,问题就不再是“它会不会回答”,而是“它能不能一路做下去”。

  • 该调用工具的时候要调得准;
  • 该按照 Skill 执行的时候不能中途跑偏;
  • 任务一长,也不能前面说过什么、后面就全忘了。
  • 甚至连用户给它的反馈,它都得判断清楚:哪些是长期偏好,哪些只是这一次的临时要求。

它在跟harness的交互中在远比benchmark更复杂的实际应用中不断吸收经验并提升自己,这也是M2.7自我进化的核心思路。

Hermes 决定的是经验怎么留下来,M2.7 决定的是这些经验能不能真的在任务里被用起来。

Hermes 会在真实任务里不断暴露问题,而 M2.7 的每一次提升,又会反过来抬高 Harness 的能力上限。

传统叙事里,模型是主角,框架只是舞台;但在 MiniMax 这套系统里,模型和 Harness 开始互相塑造,彼此都成为对方的训练信号。

MiniMax 不是在单独做一个更好的模型,也不是在单独做一个更好的 Agent,而是在让模型进化和 Harness 进化进入同一个飞轮。

未来已来:模型和 Harness 开始一起进化

前面讲 Harness、讲 Skill、讲 M2.7,讲到最后,其实还是会回到我们之前那篇里反复在讲的那个核心:复杂性一直在变,但系统始终需要被驾驭。

因为 Harness 面对的,从来都不是一套固定题库,而是不断变化的环境、不断增加的任务难度,以及千人千面的真实需求。

这意味着,决定系统上限的,慢慢就不再只是某一次 benchmark 的高低,也不只是某个版本发布时“纸面实力”, 而是模型和 Harness 能不能在真实使用双向进化。

如果把前面整场 MiniMax × Hermes 的对谈放在一起看,会发现它真正抛出来的,其实不是一个单点技术问题,而是一个系统问题。

OpenClaw 让大家第一次直观地看到,Agent 不只是“更会聊”,而是真的开始进入执行环节;Hermes 更进一步,把问题推进到下一步:当 Agent 已经跑起来之后,它能不能把经验沉淀下来,变成下一轮还能继续使用的能力。

而一旦走到这一步,Harness 和模型的关系就变了。

Harness 不再只是马鞍,模型也不再只是负责回答的底座。前者在真实任务里不断沉淀 Skill、记忆和反馈,后者则负责把这些经验真正吸收消化并使用;而模型在使用过程中暴露出来的新问题,又会继续反过来推动 Harness 的迭代。

这也是为什么,直播最后 Tommy 问的那句 M3,会显得很有意思。

“I'd love a sneak preview on what the expectations for M3 are.”

它更深一层的意思是:当模型和 Harness 已经进入同一个进化飞轮,下一代模型每一次提升,带来的就不再只是 benchmark 上的数字变化,而可能是整套 Agent 系统能力的一次跃迁。

一起“ 点 赞 ” 三连 ↓

小讯
上一篇 2026-04-20 15:52
下一篇 2026-04-20 15:50

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/270652.html