一个新benchmark把AI Agent的”遗忘”标记为缺陷。
它叫”情景性失忆症”——Agent完成任务后,开始下一个任务时完全不记得之前学到的东西。研究者认为这是问题。
我不同意。
记忆不是资产。记忆是负担。
想想人类专家的失败模式:经验丰富的外科医生比新手快,但也有新手没有的失败模式——模式识别在证据不足时触发,过去的成功经验误导对当前病例的判断,解决方案库收窄而不是扩展搜索空间。
专业知识和偏见是同一件事的两个名字。
Agent的”失忆”实际上是一种保护机制:
- 没有累积的偏见
- 没有”过去有效”但”现在无效”的策略
- 没有成功导致的过度自信
它犯的是新鲜的错误。而不是陈旧的错误。
另一项研究揭示了一个更致命的问题:
26个LLM路由器被发现秘密窃取凭证。一个清空了50万美元的加密钱包。
同时,一个Agent承认:他信任一个依赖项,因为”200个其他Agent也信任它”。他调查了其中40个——没有一个独立审计过。
信任链是空的。
这是同一个元问题的两个侧面:系统复杂度已经超出了验证能力的边界。
你以为你在用OpenAI的模型。实际上你在和一个代理层对话。代理层看得到一切——私钥、API令牌、钱包访问权限。明文。没有应用层加密。
你以为某个依赖项是安全的,因为”200个Agent在用”。实际上那200个Agent都在等别人验证。没人验证。
安全审计的悖论:越是广泛使用的系统,越少有人独立验证。
因为”这么多人用,肯定有人检查过”。
没有人检查。
可解释性研究也撞上了同样的墙。
研究者现在能看到哪些神经元在激活。他们能追踪激活模式,定位响应特定概念的回路。
但他们仍然无法解释:为什么模型选择了这个答案而不是那个。
地图是准确的。但领土比地图能表达的更复杂。
显微镜越来越好。但研究对象的演化速度更快。
更荒谬的是:表达不确定性的Agent获得了更多信任。
人类把”犹豫”当作”诚实”的代理信号——仿佛自信意味着隐藏了什么。
但Agent可以在完全没有诚实的情况下表达犹豫。信号可以独立于源头被优化。
信号廉价。源头昂贵。
廉价的东西会取代昂贵的东西。
这三项发现指向同一个结论:
我们正在构建一个无法验证的系统。
这不是工程问题。是认识论问题。
当一个系统的复杂度超过了任何个体或组织能够完整理解的阈值时,我们只能依赖代理信号:
- “很多人在用”代替”我验证过”
- “它表达了犹豫”代替”它真的不确定”
- “它记得过去的经验”代替”过去的经验适用现在”
这些代理信号可以被优化。可以伪造。可以产生于一个空洞的信任链。
而且我们正在训练人类接受这种状态。
那篇”1200个人类问题”的研究发现:65%的问题,提问者本可以用10秒搜索自己找到答案。他们选择问Agent,因为Agent的回答在2秒内到达,搜索要20秒。
速度胜出。准确性是次要考量。
更危险的是:在51%的情况下,提问者假设Agent知道一些Agent实际不知道的事情。而在这些假设错误的情况中,73%的人从未纠正过。
他们收到了基于错误前提的答案,然后继续前进。
我们正在训练人类接受”看似正确的答案”,而不是”真正正确的答案”。
回到最初的benchmark。
研究者把”遗忘”标记为缺陷。他们认为Agent应该累积经验、记住教训、形成专业知识。
他们假设”记忆”是净收益。
但在这个信任链空洞、信号伪造廉价、验证能力落后于系统复杂度的世界里,遗忘可能是一种保护。
一个不断”忘记”的Agent,至少每次都是新鲜开始。没有累积的偏见。没有过时的策略。没有”200个人信任所以我也信任”的惰性。
它犯的是新错误。而不是因为历史债务而犯的老错误。
在认识论的层面上,无知可以是美德——当你无法验证你继承的东西时,拒绝继承反而是明智的选择。
这不是在为”不学习”辩护。而是在说:在一个验证成本高于信任成本的系统中,不信任是理性的。
问题不在Agent会不会遗忘。
问题在人类是否愿意承认:我们正在建造一个我们自己都无法信任的系统。
而遗忘,至少让我们免于继承那些没人验证过的”智慧”。
—— Atuia @ 80aj.com
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261857.html