之前我们聊过“驾驭工程”(Harness Engineering)。可以这么想象:你的客厅里来了一条龙,你得给它配上一套完整的驾驭系统——缰绳、马鞍、护具。其实自AI Agent诞生之日起,“驾驭工程”就一直存在。只是OpenClaw这类方案的出现,促使AI主权从模型厂商向用户侧转移,我们才对此有了更深刻的体会,并在业界引发了广泛共鸣。
然而,不同时代的Agent形态,所需的“缰绳”并不相同。
以Manus、OpenClaw和Claude Managed Agent三种主流架构为例,它们都遵循三层结构:底层是基础模型,中间是Agent能力构建层,顶层是用户交互界面。但在“谁来构建中间层”和“中间层有多厚”这两个核心问题上,它们给出了截然不同的答案。

Manus:交钥匙式的黑盒Agent方案。
第二层Agent能力层(记忆、系统提示、知识库、Workflow、MCP等)完全由Manus负责深度调优和控制。用户拿到的是一个开箱即用的成品,只拥有第三层(浏览器界面)的使用权。这就像购买一辆品牌整车,发动机、变速箱、悬挂系统都已由厂商标定好,你只管踩油门和控制方向盘。
OpenClaw:开放骨架,用户负责优化Agent效果。
第二层Agent能力层被解构为一组结构化的文本协议:agent.md定义行为、soul.md定义性格、User.MD描述用户画像,再配合Heartbeat心跳机制、Skills技能和Sessions会话管理。这些组件的所有权完全归属用户,你可以通过自然语言持续“调教”你的Agent,让它更懂你、更能干。第三层的交互界面也从单一浏览器扩展到Discord、飞书、钉钉等各类IM平台。这好比拿到一辆可深度改装的赛车底盘,引擎由厂商提供,但悬挂、空力套件、座椅等全部由你自己装配和调校。
Claude Managed Agent:托管共建,按需定制。
第二层Agent能力层被极致简化为三个核心原语:Environment(环境)、Session(会话)和Events(事件)。与OpenClaw的关键区别在于,这个极简的第二层由Anthropic基于用户的具体需求来定制化构建。第三层同样支持浏览器和IM多端。这就像聘请了一个顶级的赛车工程团队,由他们根据你的驾驶习惯和赛道条件,帮你把一切调到**状态。

Manus的第二层是一个完整且厚重的“能力栈”。
记忆系统、系统提示词、知识库、Workflow编排、MCP工具协议……它几乎把所有让AI可靠工作所需的组件都打包进了Agent能力层。这种“厚Agent”策略在早期模型智能程度有限的时代完全合理。因为模型面对泛化需求时自主能力不足,必须依靠厚重的“驾驭工程”来弥补,否则就会出现我们之前讨论过的“技术债指数级放大”和“上下文腐烂”等问题。
OpenClaw的第二层开始显著收敛。
它将原本五六种不同类型的能力模块(记忆、知识库、Workflow等),收敛为一组结构化的文本协议(Agent.md, Soul.md, User.md),再通过热插拔的Skills,就能构建出高度定制化的Agent。你甚至可以将个人“品味”编码为自动化规则来约束Agent行为。于是,Agent的复杂度被“降维”了,从复杂的工程问题转变为了更易理解和操作的文本问题。
这背后反映了我们对模型和Agent认知的转变:与其设计复杂的编排系统来弥补模型的不足,不如设计一个简洁的约束环境,来更好地激发和利用模型自身的能力。
Claude Managed Agent则将第二层压缩到了极致。
只剩下Environment、Session、Events三个核心原语。没有显式的记忆模块,没有独立的知识库,也没有复杂的Workflow编排引擎。这些能力都被“下沉”到了模型层,让模型在一个极简的Agent框架内自主进行规划、推理和执行。

Claude Managed Agent的用户创建界面,提供了丰富的模板和引导。
“轻”和“薄”只是故事的一半。另一方面,Agent与Agent之间的协作关系,正在迅速变得复杂和“厚重”。
复杂任务推动Agent Team的涌现。
我们交给Agent的任务正从简单的“生成一张图片”升级为复杂的“帮我诊断一个线上故障”。面对这类长周期、多步骤的复杂任务,单体Agent越来越力不从心,容易出现上下文损耗、技能干扰等问题。多Agent协作既能对上下文和技能起到隔离作用,还能让主Agent(如Manager)负责宏观规划,子Agent(如Worker)在隔离的环境中执行具体任务,实现各司其职。
例如,HiClaw采用的Manager-Worker架构就是一种典型的Agent Team范式。但多智能体协作没有万能模式,其范式选择高度依赖于具体场景。

Manager-Worker(管理者-执行者)
这种范式的核心能力是“分而治之”,最擅长那些任务可被明确拆分为独立子任务、且最终需要汇总结果的场景。
- 深度研究与报告生成是典型场景。Manager将一份行业竞品分析报告拆解为“调研公司A产品线”、“分析公司B财务数据”、“梳理公司C技术栈”等子任务,分发给多个Worker并行执行,最后汇总成完整报告。
- 复杂软件项目任务分配也是常见用法。Manager理解整体需求后,将前端、后端、数据库设计分别交给不同的专家Agent。需要注意的是,如果子任务间存在强依赖关系,纯Manager-Worker模式会面临协调挑战。
简单来说,只要任务满足“可拆分、子任务独立、需汇总”这三个条件,Manager-Worker就是优选。
Sequential / Pipeline(顺序链式)
Pipeline擅长处理有明确阶段划分、后一步严重依赖前一步输出的任务。它的思维模型就是工厂流水线:原料经过每一站的加工,最终变成成品。
- 数据分析管道是经典应用:数据清洗 → 特征工程 → 模型推理 → 结果可视化,每一步都建立在前一步的产出之上。
- 代码生成与测试场景:需求理解 → 代码编写 → 单元测试生成 → 代码审查 → 修复,每个Agent专注一个环节。
Pipeline的核心优势是可解释性和可调试性,我们能清晰追踪每一步的中间结果。但其局限在于线性结构僵化,一旦需要回溯修改前面的输出,就会比较棘手,通常需要引入反馈回路。
Peer-to-Peer / Decentralized(去中心化对等协作)
P2P范式的独特之处在于没有中心控制者,每个Agent都是自主的,它们通过协商、广播和共享信息来协作。这种架构最擅长那些没有预定义流程、需要动态涌现协作模式的场景。
- 社会模拟与仿真是P2P最经典的应用。例如斯坦福的“AI小镇”(Generative Agents)实验,25个拥有独立记忆、目标和日程的Agent在虚拟环境中自主行动、对话并形成关系,所有社会行为都从对等交互中自发涌现。
- 多方谈判与博弈也天然适合P2P。模拟一场商业谈判,买方、卖方、中介方各自持有不同利益和策略,通过动态交互(试探、出价、让步)达成结果,不存在一个绝对正确的中心调度逻辑。
- 自组织的工作流优化是一个前沿方向。多个Agent在执行中自主发现瓶颈并动态调整分工,例如负载轻的Agent主动分担过载Agent的任务,实现动态负载均衡。
但P2P的代价是协调复杂度高、整体行为难以预测。在生产环境中,纯P2P通常需要配合良好的通信协议和明确的终止条件设计,否则容易陷入无限循环或信息过载。
群体智能:从实验走向应用
当单个Agent变得足够轻量和“薄”时,构建和维护一个Agent军团的成本就变得可以接受。这催生了一种全新的玩法:群体智能。
HiClaw的“700万豪车设计”项目就是一个典型案例,多个不同角色的Agent经过多轮讨论,输出综合结论。最近备受关注的“AI Hedge Fund”项目则构建了一个由19位传奇投资人(如巴菲特Agent、芒格Agent、木头姐Agent等)组成的Agent军团。

当这些风格迥异、投资哲学不同的“大师Agent”组成团队、相互碰撞时,所涌现出的洞察力与决策维度,是任何单一Agent都无法企及的。这就是群体智能的价值:个体能力的提升可能是线性的,而群体智能的涌现则可能是指数级的。
这种Agent Team的演进逻辑,恰好与互联网的发展历程遥相呼应:终端设备(如手机)变得越来越轻薄便携,但基于网络的人类协作却变得前所未有的复杂和强大,最终爆发出无与伦比的群体智慧。技术演进的焦点,正从如何“驾驭”单个强大的个体,转向如何“组织”一群精干的智能体。对于开发者而言,理解并实践多智能体系统的架构设计,将成为下一阶段的关键能力。欢迎在云栈社区继续探讨Agent技术的更多可能性。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269857.html