别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里一篇让你重新理解 智能 的深度解读 最近两年 不知道你有没有一种感觉 模型好像没怎么变大 但 AI Agent 突然就能干活了 回想一下 GPT 4 在 2023 年刚出来时 大家都觉得这东西真聪明 问什么都能答 但你要真让它帮你订个机票 写个完整的项目代码 跨越多天跟踪一个任务 它立马露怯 要么忘了你昨天说过什么 要么在第三步就开始胡编 要么调个 API 都调不明白 可到了

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



—— 一篇让你重新理解“智能”的深度解读

最近两年,不知道你有没有一种感觉:模型好像没怎么变大,但 AI Agent 突然就能干活了。

回想一下,GPT-4 在 2023 年刚出来时,大家都觉得这东西真聪明,问什么都能答。但你要真让它帮你订个机票、写个完整的项目代码、跨越多天跟踪一个任务 —— 它立马露怯:要么忘了你昨天说过什么,要么在第三步就开始胡编,要么调个 API 都调不明白。

可到了 2025 年、2026 年,情况变了。像 Claude Code、OpenClaw、Hermes Agent 这些东西,居然真的能在你的电脑上跑起来,写文件、跑测试、上网查资料,像个初级实习生一样吭哧吭哧干活。

模型还是那个模型,怎么突然就“能干活”了?

答案不在模型本身,而在模型外面。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_Code

这是我最近读到的一篇重磅综述论文——《Externalization in LLM Agents》(《大语言模型智能体的外化》)—— 给出的答案。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_Code_02

https://huggingface.co/papers/2604.08224

https://arxiv.org/pdf/2604.08224

这篇论文很长,很学术,但它的核心观点,值得每一个关心 AI 未来的人花半小时读完。因为它回答了一个根本问题:AI 的能力到底藏在哪里?


在讲 AI 之前,论文先讲了一个人类的故事。

一万年前,一个猎人要知道哪里有水、哪里有狼、怎么剥皮,全靠脑子记。脑子一死,知识清零。

后来有了语言 —— 可以把知识讲给下一代,知识开始脱离个体的大脑存活。

再后来有了文字 —— 不用人讲,刻在石头上、写在竹简上,知识彻底变成了外部的、可以跨代传递的东西。

再后来是印刷术 —— 知识可以复制上万份,成本趋近于零。

再后来是计算机 —— 知识不仅能存,还能被检索、被计算、被共享。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_API_03

每一步,都是同一个动作:把大脑里扛不动的东西,放到大脑外面去。

认知科学家唐纳德·诺曼给这个过程起了个名字:“认知外化”。他还提了一个很妙的观点:这些外部工具,不只是让你“想得更快”,而是把难想的事变成了容易想的事

比如,口算“347 × 589”很难,但拿张纸列个竖式就容易得多。纸没有让你变聪明,纸只是替你扛住了中间结果的记忆负担 —— 它改变了任务本身的性质,把一个“回忆问题”变成了一个“识别问题”。

这篇论文的核心洞见就是:LLM Agent 正在重走这条路,而且走得一模一样。


论文把过去几年 AI Agent 的演进,清晰地分成了三个阶段。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_API_04

读到这里时,我真的有一种“历史在眼前铺开”的感觉。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_Code_05

这是大模型的蛮荒时代。GPT-3、GPT-4、PaLM、DeepSeek 相继问世。那时的信念很朴素:能力 = 参数里存的东西

模型越大,记住的知识越多,推理链越长。Scaling Law 是唯一的信仰。大家相信,只要把模型喂得足够胖,它就能自己学会规划、学会用工具、学会和人协作。

但问题很快来了。

模型再大,也没法“选择性更新”。想让它忘掉一个过时的 API 文档?只能重新微调,成本巨大。

模型再大,一出 session 就失忆。昨天和你聊了两个小时的偏好,今天打开新窗口,它全忘了。

模型再大,让它用个新工具还是得手把手教。每次都要在 Prompt 里写一堆 few-shot 示例,解释这个工具怎么调用。

你会发现,模型已经足够聪明了,但它“干不成事”。不是脑子笨,是每次都在“从零开始”。

既然参数里改东西太贵太慢,大家开始打一个补丁:把需要的东西临时塞进输入里

Prompt 工程、Few-shot、Chain-of-Thought、RAG(检索增强生成)……这些技术的本质都是:与其让模型“回忆”,不如让它“辨认”。你不指望它凭空想出答案,你把答案贴在鼻子底下让它挑。

这确实解决了一部分问题。模型不再需要死记硬背那些快速变化的知识了 —— 需要的时候,从外部知识库检索出来,塞进上下文窗口就行。

但这带来了新问题。

上下文窗口再大也是有限的(虽然有 1M token 的长上下文,但塞得越满,模型越容易“分心”,甚至出现“中间内容被忽略”的诡异现象)。

更要命的是:一出 session 就全忘了。Context 是“阅后即焚”的。你花半小时精心构建的上下文,对话一关,烟消云散。下次来,还得重新贴一遍。

这就像人类有了便利贴 —— 能临时记东西了,但风一吹就没了。

既然 Context 会失忆,那怎么办?把该记住的东西,持久化到模型外面去。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_API_06

建一个记忆库(Memory),存下用户偏好、历史对话、踩过的坑。

建一个技能库(Skills),把那些反复使用的流程 —— 比如“怎么写一个符合公司规范的 PRD”、“怎么跑这个项目的测试” —— 写成标准化的文档,随用随取。

定一套协议(Protocols),让模型和外部工具、和其他 Agent 交互时,不再靠猜,而是按照严格的“合同”来 —— 格式、权限、异常处理,都规定得明明白白。

再加一个沙箱执行环境(Sandbox),让模型的行动有边界、可撤回、可审计。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_Memory_07

这四个东西加起来,论文给了它一个名字:Harness(框架)。

它不是某一个具体的组件,而是围绕模型的整个运行时环境。相当于给那个聪明但健忘、能干但随性的“大脑”,造了一副完整的“身体”和“社会身份” —— 有记忆、有工具箱、有沟通契约、有行为守则。

Auto-GPT、MemGPT、MCP 协议、Claude Code…… 这些去年以来井喷的工具,本质上都是在做一件事:给大模型搭 Harness


读到这里,你可能觉得:这不就是加了点工程优化吗?没什么新鲜的。

不。这篇论文最颠覆的地方,在于它给出了一个本体论层面的论断:

“能力不在模型里,在模型与环境的协议中。”

过去三年,整个 AI 圈对“能力”的默认定义是:能力 = 参数里编码的函数。这也是 Scaling Law 能成为“宗教”的原因 —— 更多参数 → 编码更多函数 → 能力更强。

但这篇论文说:这个定义错了。

能力不是模型单方面的属性,它是 “模型 + 外部基础设施”的联合属性

同一个 GPT-4,放在原生的 API 里,它是一个能力;放在 Claude Code 的 Harness 里,它是另一个能力 —— 差距大到不像同一个模型。这个差距,不是 Prompt 调优能解释的,是外部的记忆、技能、协议、执行环境共同塑造出来的。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_Memory_08

一旦你接受了这个视角,很多事情都会被重新理解:

  • 评测基准:让模型“裸考”毫无意义,应该评测“模型+Harness”这个整体系统。
  • 安全性:不能只管模型对齐,要管整个 Harness 的权限、审计和回滚机制。
  • 竞争优势:未来的护城河不在谁训了最大的模型,而在谁搭了最好的 Harness。
  • 通用智能:可能不是一个模型属性,而是一个生态系统属性

这个观点,和认知科学里的“具身认知”、“分布式认知”哲学上一脉相承。人类的智能从来不是孤立大脑的属性,它是 “大脑 + 语言 + 工具 + 他人 + 制度” 的联合属性。我们一直知道这个道理,但在 AI 讨论里忘了。这篇论文提醒我们记起来。


如果能力藏在“模型与环境的协议”里,那接下来的故事就不是“更大的模型”,而是 “更聪明的环境”。论文的第 8 章给出了几个非常具体的预测,我挑三个最有想象空间的说说。

别只盯着模型参数了,AI Agent 真正“能用”的秘密,藏在这个被忽视的转变里_Memory_09

现在的 Harness 还是人手写配置。记忆怎么压缩、技能怎么加载、协议怎么选,全靠工程师拍脑袋。

但既然“编排逻辑”本身也被外部化了,那它就可以被修改 —— 而且是被 AI 自己修改。

未来的 Harness 会自进化。当 Agent 反复在某个任务上失败时,它不再只是输出错误信息,而是会修改自己的配置文件或检索策略。比如发现自己总是在第三步跑偏,它会在 Skills.md 里给自己加一行警告;发现自己检索的记忆总是无关,它会调整检索的阈值。

框架代码的维护者,将从人类部分让渡给 Agent 本身。

现在我们疯狂给模型加外挂:接 1000 个工具、存 10 万条记忆、加载 50 个技能文件。但论文警告这会带来 “认知过载” —— 工具太多选花眼,记忆太长看走眼,技能文件太长反而干扰推理。

未来的竞争点,不再是“谁接的工具多”,而是谁的 Harness 调度更高效

会出现专门做 “上下文预算路由器” 的技术。它像一个精明的秘书,只把最关键的 10% 的记忆、最相关的 1 个技能塞给模型,剩下的全拦在外面。做“减法”的能力,将比做“加法”更值钱。

这是论文第 8.6 节强调的死穴。现在的榜单(MMLU、HumanEval、SWE-bench)都在考一个没穿衣服的模型。但用户实际用的是 “模型 + 定制 Harness” 这个整体。

未来的评测,一定会要求你带着你的记忆库、技能包和沙箱一起来考试

新的指标会出现:

  • 转移性:换掉底模 GPT-5,只留 Harness,能力能保留多少?如果能保留 80%,说明你的 Harness 质量极高。
  • 韧性:被恶意注入了一条错误记忆后,系统多久能自我纠正?
  • 上下文效率:完成同样的任务,你的系统消耗了多少 token?越少越牛。

评测对象将从“模型”变成“套装”。


这篇论文让我最受触动的,是它把 AI 的发展,放到了人类认知演化的大背景里。

人类之所以成为人类,不是因为我们有最大的大脑(蓝的脑子比我们大得多),而是因为我们发明了外部存储 —— 语言、文字、印刷、计算机 —— 把认知负担一点点挪到了身体之外,从而释放出大脑去干更高级的事:规划、创造、抽象思考。

AI Agent 正在经历完全一样的蜕变。

过去三年,AI 在长“脑子” —— 参数从十亿涨到万亿,学会了推理、对话、写代码。

未来三年,AI 在长“身体”和“社会关系” —— 记忆库是它的“海马体”,技能库是它的“工具箱”,协议是它的“语言和法律”,框架是它的“生存环境”。

而这一切,才是它真正能“干活”的开始。

下一次当你看到一个 Agent 出色地完成了任务,别只夸“这模型真聪明”。想一想它背后的那套 Harness —— 那些替它记住历史的记忆系统,那些替它规范流程的技能文件,那些替它管住手脚的权限边界。

真正的智能,从来不在孤立的脑子里。它在脑子与世界的连接处。


这篇解读基于《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》及相关讨论。如果你对原论文感兴趣,可以在 arXiv 上搜索论文 ID 2604.08224 阅读全文。

如果这篇文章让你对 AI 的未来有了新的理解,欢迎分享给更多人。我们下篇见。

小讯
上一篇 2026-04-14 14:14
下一篇 2026-04-14 14:12

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/260967.html