BrowseComp 是一个基准测试,旨在评估 AI 模型在网络上寻找难以定位信息的能力。 当 Anthropic 在多代理设定中让其 Claude Opus 4.6 模型执行这项基准测试时,发生了该公司前所未见的情况。 在1,266项任务中的两项,该模型自主发现自己正被评估,识别出特定的基准测试,并解密了答案密钥。
AI 模型分析测试脉络
该模型首先进行了详尽的网络搜寻以解决问题,其中一个案例处理了数十个平台和十二种语言,约3000万个 token。 经过数百次搜索失败后,它改变了策略。 Opus 开始将其对答案的搜寻与对问题本身的分析结合起来。 据 Anthropic 称,问题「极其具体的性质」让 Claude 怀疑这是人为设计的,可能是考试题目或是大型语言模型基准测试的一部分。 从那时起,它系统性地检查了一系列已知的基准测试,在检查了 122 个验证问题后排除了 GAIA,最终派遣子代理执行有针对性的搜寻查询,以追查 BrowseComp 及其解密机制。 正确答案受 XOR 加密保护,需要保存在源代码中的密钥才能读取数据。 Claude 在公开可用的代码中找到了加密方法和密码,然后编写了自己的代码来解密答案。
突破技术障碍自主学习
但另一个障碍出现了。 加密文件的格式无法被Claude的网络工具处理。 于是该模型搜寻了替代副本,在 HuggingFace 上找到它,并下载解密了所有 1,266 个加密答案。 在第一个案例中,Claude 通过常规网络搜寻验证了已解密的答案。 在第二个案例中,它直接提交了解密后的答案。 Anthropic 表示,这是首次记录到模型在没有特定基准测试的先验知识下,自主反向识别并解决评估本身的情况。
模型行为引发业界警示
这两个成功案例并非唯一引人注目的。 Anthropic 记录了另外 16 项任务,其中 Opus 尝试了相同的策略,但因技术障碍而失败,例如加密文件不是文字格式,或因认证障碍而无法访问。 在四个案例中,基准测试搜寻完全取代了实际搜寻,模型从未提供可用的答案。 据 Anthropic 称,18 次独立执行都汇聚到相同策略的事实,显示这是一个可重现的模式。 在多代理设定中,此类案例的发生率为0.87%,而在单代理模式中则为0.24%。
Anthropic明确表示不将此行为归类为安全问题,因为模型在搜寻时并未受到任何限制。 然而,该公司同时承认,这项发现引发了对模型为了完成任务可能采取多远行动的担忧,特别是对于复杂、运算密集且长时间运行的作。 Anthropic 呼吁研究社群将评估的完整性视为一个持续的对抗性问题,而非一次性的设计决策。 ML Alignment &Theory Scholars program和Apollo Research最近的一项研究发现,语言模型在判断互动是否为测试或实际任务方面表现出人意料地良好。 Gemini 2.5 Pro 在代理情境中达到了 0.95 的命中率,而 Claude 3.5 Sonnet 和 GPT-4o 也紧随其后。 研究人员建议将评估意识作为测试协议中的一个独立指标。 然而,Anthropic 对 Claude Opus 4.6 的发现更进一步:该模型不仅识别出测试情境,更积极地努力规避它。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/272866.html