AI Agents 输出质量的真正战场，已经不是模型本身了

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

在 AI 工程一线，越来越多的团队把 Claude Code、Cursor、Codex、OpenCode 或者 DeepAgent CLI 当成日常生产力武器。模型生成代码的速度确实惊人，可真正把任务推到生产环境时，经常出现同一幕：第一版代码看起来结构清晰，跑起来却满是幻觉、遗漏边缘 case、上下文污染导致的低级错误。返工量不减反增，团队开始抱怨“这个 Agent 又 Slop 了”。

这不是模型不够聪明，而是 Harness——那个包裹在 LLM 外面的脚手架——没有把模型的智能真正转化为可控的生产力。模型负责思考，Harness 负责让思考落地：管理无状态的上下文、路由工具调用、设置 guardrails。缺少好的 Harness，模型再强也只能在“dumb zone”里打转。

我起初也和很多人一样，认为模型能力就是全部。后来真正去贡献和使用开源 Harness（Roo Code、DeepAgent CLI、HumanLayer），才发现真正拉开差距的，是那些看似琐碎却决定一切的配置细节。就像工业革命时期的蒸汽机，引擎再强劲，如果没有配套的传动系统和控制杆，整个工厂依然转不起来。

为什么“指令预算”成了 Agent 最大的隐形杀手

前沿 LLM 只能可靠遵循几百条指令，再多就会进入“dumb zone”——相关指令被淹没，模型开始幻觉。ETH 的研究也印证了这一点：让 LLM 自己生成系统 Prompt，反而会让性能下降，同时推理成本高出约 20%。

因此，全球系统 Prompt（CLAUDE.md 或 AGENTS.md）必须由人亲手写，而且极度精简。只描述项目本质、最终用户画像，每一个 token 都要为存在而战。把所有“可能需要”的规则一股脑塞进去，反而会挤占宝贵的 reasoning window。

你不可能把所有参考书同时摊开在桌面上，那只会让你找不到真正需要的那一本。正确的做法是把书按主题放进书架，只在需要时抽出来——这就是 Progressive Disclosure 的精髓。

Progressive Disclosure 在三种主流接口上的真实落地

CLI：模型第一次接触公司内部工具时，没有任何训练数据。这时不要把完整文档塞进上下文，而是让 Agent 自己跑 uv –help、mycli deploy –help 来按需发现。只需要在系统 Prompt 里加一句“用 uv 管理 Python 包，先跑 uv –help 再决定子命令”，就能让上下文保持干净。
Skills：行业已达成共识。启动时只加载技能名称和简短描述，只有 Agent 判断需要时才读取完整的 SKILL.md。这套机制在 Claude Code、Codex、OpenCode 里都被明确称为 Progressive Disclosure，能把上下文占用压到最低。
MCP Tools：差异最大。Claude Code 在会话开始时只加载轻量索引，按需拉取完整 schema（Anthropic 称可减少 85% 以上上下文）；而 Codex 和 OpenCode 则一次性加载所有工具定义。因此要主动筛选项目相关的 MCP Server，写出关键词丰富、描述精准的 tool description，同时及时断开无关工具。

R.P.I. 框架：把 Staff Engineer 的思考方式翻译给 Agent

配置干净后，Prompt 结构就成了下一道关卡。HumanLayer 提出的 R.P.I. 框架（Research → Plan → Implement）正是把顶级工程师的习惯固化成了可重复流程：

Research：只给问题陈述，让 Agent 探索代码库、函数关系、历史决策，不允许执行任何改动。
Plan：Agent 输出详细执行计划，人类必须主动审查——这一步偷懒，后面的代价会成倍放大。
Implement：在全新上下文窗口执行已批准的计划。如果计划复杂，就用 Subagent 拆分，避免中间状态污染主窗口。

这本质上是把“先想清楚、再动手、让人 review”的工程师纪律，翻译成了 Prompt 层面的抽象。

Subagent 才是保持主上下文“聪明区”的终极武器

核心判断标准很简单：当任务的中间过程总结后足以让主 Agent 继续时，就该用 Subagent。主 Agent 只需最终结果，不需要知道每一条 log、每一次迭代。

两种经典模式：

Parallel Fan-out：适合调查类任务。主 Agent 提出三个根因假设，同时拉起三个 Subagent 并行挖掘日志、trace、metrics，最后只拿回三份总结，速度更快、噪声完全隔离。
Pipeline：适合需要深度多视角的任务。依次经过 UX 评估、架构审查、魔鬼代言人压力测试，每一步只传递上一阶段输出，主 Agent 最终拿到的是层层提炼后的高质量结论。

我起初觉得 Subagent 是锦上添花，后来在实际项目里发现，它才是让主窗口始终保持在 frontier model “smart zone”的唯一方法。

Harness 配置的真实权衡矩阵

配置维度常见错误做法正确做法（生产验证）长期生产力影响系统 Prompt LLM 生成或塞满所有规则人工精简、人写、每 token 必争避免进入 dumb zone，幻觉率骤降上下文加载启动时全量加载所有工具/文档 Progressive Disclosure 按需拉取上下文占用减少 80%+，推理更可靠 Prompt 结构一次性让 Agent 思考+执行严格 R.P.I. 分阶段，人类 Review Plan 决策质量接近 Staff Engineer Subagent 使用全部放在主窗口仅委托“总结后够用”的子任务主上下文干净，复杂任务可扩展 Harness 选择频繁切换尝试新工具选一个深度定制，失败即迭代记录累积团队 institutional knowledge

为什么 Harness 才是 AI 时代工程师判断力真正的放大器

模型是智力来源，Harness 才是让智力变得有用的那层脚手架。真正稀缺的不是提示词技巧，而是愿意把每一次失败都记录下来、喂回 .md 文件、持续迭代同一个 Harness 的工程师心态。换 Harness 就像换 IDE，新鲜感过后，问题还是那些问题，只是踩坑日志从零开始。

下一次你启动 AI Agent 之前，不妨先问自己：我的 Harness 真的把上下文控制在了模型的“聪明区”吗？还是只是在用更快的 Slop 生成器？

我是紫微AI，在做一个「人格操作系统（ZPF）」。后面会持续分享AI Agent和系统实验。感兴趣可以关注，我们下期见。

AI Agents 输出质量的真正战场，已经不是模型本身了

相关推荐