文章总结: HarnessDesign是一种多智能体协作架构,通过角色分离(规划者、生成者、评估者)和反馈循环解决AI自主编程中的上下文焦虑与自我评估偏差问题。实验显示该架构能在6小时内产出完整可用的应用,相比单智能体模式实现质的飞跃。核心价值在于系统性组合已有概念,提供可扩展的工程实践方案,适用于复杂任务自动化执行。 综合评分: 85 文章分类: AI安全,安全开发,解决方案,技术标准,其他

原创
秀逗猫 秀逗猫
秀逗猫
2026年4月3日 12:16 北京
在小说阅读器读本章
去阅读
Harness Design(挽具设计/框架设计) 是一种多智能体协作架构,通过将单一智能体拆分为多个专门角色的智能体,实现复杂任务的自动化执行。该架构灵感来自生成对抗网络(GANs),通过生成者与评估者的反馈循环,提升任务完成质量。
- 角色分离 – 生成与评估独立
- 反馈循环 – 持续迭代优化
- 质量保证 – 严格评估标准
Harness Design 的核心理念源自传统的组织管理智慧:分工协作、角色分离、外部评估。
软件工程领域也早就有类似实践:
- 代码审查(Code Review):一个人写代码,另一个人审查
- 测试驱动开发(TDD):先写测试(评估标准),再写代码
- 敏捷开发(Agile):迭代冲刺、验收测试、持续反馈
- GANs(2014):生成器 vs 判别器的对抗训练
以前也有人提过多智能体协作,但为什么 Anthropic 在 2026 年的这篇文章引发了行业关注?
时机 1:AI 模型能力的突破
以前:模型上下文窗口小(4K-8K tokens),难以保持长对话的一致性
现在:Claude、GPT-4 等模型支持 200K+ tokens 上下文,理论上可以处理长任务,但带来了新问题:
- 上下文焦虑:模型会担心”快没位置了”,提前收工
- 注意力分散:上下文太长,模型”走神”
💡 关键洞察:长上下文是必要条件,但不够。需要系统性架构来管理这个长上下文。
时机 2:真实需求的爆发——Agent 编程成为趋势
2024-2026 年趋势:从”AI 辅助编程”到”AI 自主编程”
AI Copilot 时代:
- ✍️ 帮你写一个函数
- 🔍 解释一段代码
- 🐛 修复一个 bug
- 人仍是主导角色
AI Agent 时代:
- 🚀 从零开始开发一个完整应用
- 🏗️ 自动设计、编码、测试
- 🔄 持续迭代优化
- AI 能够独立完成开发任务
💡 关键洞察:当 AI 需要独立完成复杂、长时间的任务时,单智能体的局限性就暴露无遗。Harness Design 是应对 Agent 时代的系统性解决方案。
时机 3:成功案例的显著效果
Anthropic 的文章不仅仅提出了理论,还展示了实验结果:
| 指标 | 数值 | | — | — | | AI 自主运行时间 | 6 小时 | | 总成本 | $200 | | 输出质量 | 完整可用 |
💡 关键洞察:以前”多智能体协作”更多是学术讨论,而 Anthropic 展示了可实际部署、可规模化的成功案例,这让整个行业意识到:”这不是科幻,而是可以立即落地的工程实践。”
Harness Design 的价值,不在于”提出了新概念”,而在于把多个已有概念系统性地组合在一起,解决了 AI 编程领域最核心的难题。
以前认为:”一个超强模型就能解决所有问题。”
现实:即使是最强的模型,在长任务中也会”犯错且不自知”。
Harness 的贡献:承认单个 AI 的局限性,通过多智能体协作突破限制。
以前评估是附属品:”写完代码再看测试。”
现实:评估应该驱动开发。
Harness 的贡献:将 Evaluator 提升到与 Generator 同等重要地位,让外部评估成为核心机制。
以前的问题:模型会担心”快没 token 了”,提前结束。
Harness 的贡献:发明Context Reset机制——定期清空上下文,用文件传递状态。这是一个工程创新,不是简单的 prompt 技巧。
单智能体:任务复杂度增加,质量指数级下降。
Harness 的贡献:通过模块化设计,可以线性扩展——增加更多角色(如测试专家、安全专家、性能专家),而不会显著增加复杂度。
Harness Design 实验验证了一个重要方向:AI 可以在长时间无人干预的情况下完成复杂的开发任务。
具体体现在:
- ✅ AI 可以长时间自主运行(6 小时无人干预)
- ✅ AI 可以自主判断和迭代(不仅仅是执行指令)
- ✅ AI 可以产出生产级质量(而非仅能产出原型)
这在两年前还处于理论探索阶段,现在已成为可落地的工程实践。这就是为什么它引起了广泛关注。
- 将复杂任务分解为可管理的小块
- 制定冲刺计划和时间表
- 协调各角色之间的协作
- 实际执行任务,生成代码或设计
- 根据评估反馈进行迭代优化
- 产出结构化的交付物
- 独立评估生成者的工作质量
- 提供详细、客观的反馈
- 验证是否符合预定标准
当对话变长时,AI 模型会因为担心”上下文快满了”而提前结束工作,导致任务无法完整完成。
解决方案:Context Reset
定期清空对话历史,通过结构化的文件传递状态,给智能体一个”全新开始”的机会。
AI 评估自己工作时,往往会过度自信,明明做得一般却自我感觉良好,缺乏客观的自我批评能力。
解决方案:角色分离
让不同的智能体各司其职,评估者可以被训练得更加严格和客观。
以”开发一个复古游戏制作器”为例,展示 Harness 架构的完整协作流程:
Planner 将用户需求分解为可执行的任务列表:关卡编辑器、精灵编辑器、实体行为、可玩测试模式
Generator 与 Evaluator 协商,明确本轮冲刺的目标、验收标准和测试方法
Generator 根据合同编写代码,实现约定的功能模块
Evaluator 使用 Playwright 自动点击应用,测试 UI、API 和数据库状态,给出评分和反馈
如果未通过评估,Generator 根据反馈修改代码;通过则进入下一个冲刺
用户提示词:
Create a 2D retro game maker with features including a level editor, sprite editor, entity behaviors, and a playable test mode.
任务拆解(4 个核心功能模块)
1. 关卡编辑器(Level Editor)
- 可视化拖拽布置地图元素
- 网格系统支持
- 图层管理
- 保存/加载关卡
2. 精灵编辑器(Sprite Editor)
- 像素级绘图工具
- 多帧动画支持
- 调色板管理
- 精灵库组织
3. 实体行为(Entity Behaviors)
- 可编程的游戏对象行为
- 事件触发系统
- 碰撞检测
- AI 行为脚本
4. 可玩测试模式(Test Mode)
- 即时运行和测试游戏
- 实时预览
- 调试工具
- 快速切换编辑/测试
期望的交付标准
一个完整可用的桌面应用,用户可以:
- 构建关卡(放置精灵、定义实体、布局地图)
- 设计自定义精灵(像素画、动画)
- 配置实体行为(移动规则、交互逻辑)
- 点击”播放”直接运行并测试游戏
实际体验:”看起来像个游戏制作器,但一用就崩溃”
- ✗ 关卡编辑器:有 UI 界面,可以放置方块,但无法保存关卡,刷新页面就丢失
- ✗ 精灵编辑器:只有基础的绘图板,没有多帧动画、没有调色板
- ✗ 实体行为:完全缺失,只有一个占位页面
- ✗ 测试模式:点击”播放”按钮没有任何反应
根本原因分析:
单智能体在 20 分钟内快速生成了一个外表看起来完整的界面,但由于:
- 上下文限制:还没来得及实现深层功能,token 就用完了
- 缺乏自测:AI 觉得”界面都有了,应该完成了”
- 没有迭代:没有外部反馈机制,不会发现自己漏掉了很多功能
实际体验:”可以直接用来开发游戏”
- ✓ 关卡编辑器:完整的拖拽系统,网格对齐,可保存/加载关卡(JSON 格式)
- ✓ 精灵编辑器:像素级绘图,支持多帧动画,有颜色选择器和历史记录
- ✓ 实体行为:可视化的行为配置器,支持碰撞检测、AI 路径、事件触发
- ✓ 测试模式:点击”播放”即时运行游戏,有调试面板和性能监控
关键成功因素(Sprint 迭代)
- Sprint 1:Generator + Evaluator 签订合同:先实现基础 UI 和关卡编辑器。Evaluator 测试通过。
- Sprint 2:实现精灵编辑器。Evaluator 发现颜色选择器有问题,Generator 修复后通过。
- Sprint 3:实现实体行为系统。Evaluator 测试发现碰撞检测 bug,迭代修复。
- Sprint 4:实现测试模式。Evaluator 使用 Playwright 自动点击所有按钮,确保功能完整。
- Sprint 5:整体集成测试。Evaluator 发现性能问题,Generator 优化渲染速度。
最终成果
一个真正可用的游戏开发工具,用户可以:
- 完整创作一个复古像素游戏关卡
- 设计并导出精灵动画
- 配置复杂的游戏逻辑
- 实时测试和调试
代码质量:有完整的测试覆盖、错误处理、性能优化、用户文档
| 指标 | 单智能体模式 | Harness 架构 | 差异 | | — | — | — | — | | 执行时长 | 20 分钟 | 6 小时 | 18 倍 | | 成本 | $9 | $200 | 22 倍 | | 输出质量 | 基础原型 | 完整可用应用 | 质的飞跃 |
💡 结论:虽然成本显著增加,但 Harness 架构能够生成真正可用的、复杂的应用程序,而不仅仅是功能不完整的基础原型。在需要高质量输出的场景下,这种成本是值得的。
注:以下内容为对 Harness Design 核心思维的合理延伸,属于实践层面的思考,非原文严格解析。
即使不部署真实的 AI 智能体系统,Harness 的核心思维模式也能帮助你在工作和学习中取得更好的成果。
规划者:大纲设计、章节划分、素材收集
生成者:撰写内容、制作插图、排版设计
评估者:检查逻辑、文笔、可读性
💡 实践建议:写完文章后,隔天再以”读者”的视角评估;使用 Grammarly 等工具进行客观检查。
规划者:制定学习计划、设定里程碑
生成者:提供学习资源和练习
评估者:测试理解程度、指出薄弱环节
💡 实践建议:学习新技能时,建立定期自测机制;找导师或同伴提供独立反馈。
规划者:任务分解、时间规划
生成者:执行每个步骤、完成交付
评估者:检查质量、验收成果
💡 实践建议:使用项目管理工具(如 Trello)跟踪进度;设定清晰的验收标准。
规划者:用户需求分析、功能规划
生成者:原型设计、界面绘制
评估者:可用性测试、竞品对比
💡 实践建议:进行用户测试获取真实反馈;使用工具进行数据驱动的决策。
在完成复杂任务时,不要既是执行者又是评估者。写完代码后,让别人测试;设计完 UI 后,让用户反馈。
在开始工作前,制定清晰的评估标准。”什么才算完成?””什么是优秀?”让目标可衡量。
不要试图一次性完成所有事情。制定冲刺计划,每个阶段都有明确的产出和验收标准。
主动寻找独立的评估视角。找导师、同事、用户给出真实反馈,使用工具进行客观测试。
Harness Design 本质上是一种系统工程思想,通过以下核心机制提升复杂任务的完成质量:
- 角色分离:避免自我评估偏差
- 标准化评估:将主观质量转化为可衡量的指标
- 迭代优化:通过反馈循环不断提升质量
“复杂任务的成功,不仅需要执行能力强,更需要有独立的、严格的评估机制。”
- 标题: Harness design for long-running application development
- 链接: https://www.anthropic.com/engineering/harness-design-long-running-apps
- 发布日期: 2026-03-24
- 作者: Prithvi Rajasekaran(Anthropic Engineering Team)
- 实验环境:
- 模型:Claude Sonnet 4.5(前端设计实验)、Claude Opus(长任务实验)
- 工具:Playwright(自动化测试)、Git(版本控制)
- SDK:Claude Agent SDK(智能体框架)
- 主题: 多智能体协作架构、AI 自主编程、Context Reset
💡 提示: 本文是对 Anthropic 原文的深度解读和案例补充,建议配合原文一起阅读以获得更完整的理解。

免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:秀逗猫 秀逗猫
秀逗猫《Harness Design:如何通过多智能体协作实现AI自主编程》
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/266684.html