尽管业界普遍推荐,但苏黎世联邦理工学院(ETH Zurich)的一篇新论文得出结论, 文件可能经常阻碍 AI 编码智能体。研究人员建议完全省略由 LLM 生成的上下文文件,并限制人类编写的指令只包含不可推断的细节,例如非常具体的工具或自定义构建命令。
团队(Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechev)通过指出尽管目前有 60,000 个开源仓库包含 AGENTS.md 等上下文文件,并且许多智能体框架都内置了自动生成这些文件的命令,但还没有进行严格的实证研究来调查这些文件是否真的提高了 AI 智能体解决现实世界编码任务的能力,从而为研究提供了理由。
研究人员(其中一位为Humanity Last Exam基准测试做出了贡献)构建了AGENTbench,这是一个新的数据集,包含 138 个来自小众仓库的真实世界 Python 任务。这种设置故意避免了像SWE-bench这样的流行基准测试的偏见,AI 模型可能已经部分记住了这些测试。团队在三个不同场景下测试了四个智能体(Claude 3.5 Sonnet、Codex GPT-5.2 和 GPT-5.1 mini 以及 Qwen Code):不使用上下文文件、使用 LLM 生成的文件和人类编写的文件。研究人员通过跟踪三个智能体指标来评估仓库级指令的实际影响:任务成功率(由仓库单元测试确定)、代理步骤数量和总体推理成本。所有选定的小众仓库都包含人类编写的上下文文件;前两个场景通过移除或替换这些文件进行测试。
研究人员发现,LLM 生成的上下文文件会降低性能,与不提供任何上下文文件相比,任务成功率平均降低了 3%。它们还一致增加了智能体采取的步骤数量,将推理成本提高了 20%以上。
另一方面,人类编写的文件确实提供了边际收益,在 AGENTbench 上任务成功率平均提高了 4%。然而,这种正面增长与步骤数量的并行增长形成对比,成本也增加了高达 19%。
在 AGENTS.md 文件中包含诸如架构概览或仓库结构解释等信息似乎并没有减少模型为手头任务定位相关文件所花费的时间。
为了理解性能下降和成本增加的原因,作者对智能体的工具调用和推理模式进行了深入的跟踪分析。智能体通常遵循 AGENTS.md 文件中包含的指令。结果,它们运行了更多的测试,读取了更多的文件,执行了更多的 grep 搜索,并进行了更多的代码质量检查。虽然这种行为非常彻底,但通常对于解决手头的具体任务来说是不必要的。数据表明,额外的上下文迫使推理模型“思考”得更努力,而没有产生更好的最终补丁。
作者最后强调了研究结果与当前向使用 AI 代码智能体的开发人员提出的建议之间的差距:
我们发现所有上下文文件都一致地增加了完成任务所需的步骤数量。LLM 生成的上下文文件对任务成功率有边际的负面影响,而开发人员编写的文件则提供了边际的性能提升。
我们的跟踪分析显示,上下文文件中的指令通常被遵循,并导致更多的测试和更广泛的探索;然而,它们并不作为有效的仓库概览。总体而言,我们的结果表明上下文文件对智能体行为只有边际影响,并且可能只有在手动编写时才受欢迎。这突出了当前智能体-开发人员建议与观察结果之间的具体差距,并激发了未来工作,即以有原则的方式自动生成简洁、与任务相关的指导,以供编码智能体使用。
开发人员对这项研究表示了兴趣。一位开发人员指出,这项研究实际上应该让开发人员专注于编写有用的AGENTS.md文件:
我读了这项研究。我认为它实际上与作者建议的相反——实际上是在支持好的 AGENTS.md 文件。
[…] AGENTS.md 文件的最大用例是模型不知道且无法立即从项目中推断出的领域知识。这是从看到智能体因这种缺陷而挣扎中慢慢获得的。这在闭源中非常常见,但在拥有 AGENTS.md 文件的公共 GitHub 项目中非常罕见——绝大多数是最近以 LLMs 中心的小型氛围编程项目。如果在后一种项目上看到了 4%的增长,这些项目本来就有非常混杂质量较差的 AGENTS.md 文件,那么对于拥有高质量 AGENTS.md 的大型项目来说,它们在与智能体合作时是无价的。
另一位开发人员指出,上下文文件可能对开发人员比对AI 利用具更有用:
我已经维护一个 CLAUDE.md 文件大约 3 个月了,它横跨两个项目,改进是明显的,但不是你所期望的原因。它提供的实际 token 级上下文并不重要,重要的是,编写它可以迫使你表达关于你的代码库的事情,这些之前只是在你的脑海中。像“我们因为 Y 中的遗留约束而对 X 使用这种奇怪的模式”之类的东西。一旦写下来,智能体就会把它捡起来,但团队中的每个新成员也会这样做。
开发者可以在线审阅论文。像 、 或 这样的上下文文件的使用,在2025年下半年变得日益重要,这与 AI 编码智能体提供商的更大推动相吻合。
原文链接:
https://www.infoq.com/news/2026/03/agents-context-file-value-review/
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/234971.html