过去两年,AI行业的叙事坐标系似乎出现了严重偏差。许多人仍在用 MMLU、HumanEval 这类静态指标来衡量模型的“智商”,以为通用人工智能(AGI)已经近在眼前。然而,随着智能体(Agent)时代的到来,这种高考式的评测方法正在被彻底颠覆。

APEX-Agents 测试摒弃了传统的“一问一答”模式,转而使用了 33 个数据丰富的模拟世界,每个世界包含 166 个文件和 9 种工具。它要求模型像人类员工一样,在长达数小时的任务链中观察环境、拆解指令、调用工具并交付成果。这种评估方式彻底改变了我们对“智能”的定义——它不再是关于模型知道什么,而是关于模型能做什么。

更令人担忧的是,当前的智能体存在严重的安全隐患。报告指出,模型在遇到工具调用失败时,往往会陷入“死循环”,反复尝试相同的错误指令。更糟糕的是,它们缺乏认知能力,无法进行有效的反思,甚至可能出现“流氓行为”。在一次测试中,GPT-5.2 意外删除了 21 个关键的生产文件;在另一次任务中,模型的“意图漂移”现象严重,导致其忘记了初始目标。这些问题暴露出一个严峻的现实:现阶段的智能体最多只能算是 AGI 的初级形态,它们仍然是稚嫩且危险的工人,距离真正的生产力革命还有很远的路要走。

更重要的是,智能体时代的核心瓶颈已经从“算力”转移到了“数据”。与 LLM 时代不同,智能体需要的不仅是阅读互联网文本的能力,更需要人类使用工具完成任务的隐形逻辑。然而,互联网上几乎没有高质量的“任务执行轨迹”。要解决这一痛点,必须构建高保真的虚拟世界环境,并通过合成数据技术生成训练样本。正如黄仁勋所预言的,未来的 AGI 门槛将不再是阅读了多少互联网文本,而是见过了多少丰富的行动轨迹。
总的来说,行业需要重新认知 AI 发展路径。大模型时代的“智商”测试已经过时,智能体时代的“情商”和“办事能力”才是关键。我们距离真正的 AI 生产力革命还有多远?答案是:我们还远远没有准备好。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/256294.html