别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

—— 一篇让你重新理解“智能”的深度解读

最近两年，不知道你有没有一种感觉：模型好像没怎么变大，但 AI Agent 突然就能干活了。

回想一下，GPT-4 在 2023 年刚出来时，大家都觉得这东西真聪明，问什么都能答。但你要真让它帮你订个机票、写个完整的项目代码、跨越多天跟踪一个任务 —— 它立马露怯：要么忘了你昨天说过什么，要么在第三步就开始胡编，要么调个 API 都调不明白。

可到了 2025 年、2026 年，情况变了。像 Claude Code、OpenClaw、Hermes Agent 这些东西，居然真的能在你的电脑上跑起来，写文件、跑测试、上网查资料，像个初级实习生一样吭哧吭哧干活。

模型还是那个模型，怎么突然就“能干活”了？

答案不在模型本身，而在模型外面。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_Code

这是我最近读到的一篇重磅综述论文——《Externalization in LLM Agents》（《大语言模型智能体的外化》）—— 给出的答案。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_Code_02

https://huggingface.co/papers/2604.08224

https://arxiv.org/pdf/2604.08224

这篇论文很长，很学术，但它的核心观点，值得每一个关心 AI 未来的人花半小时读完。因为它回答了一个根本问题：AI 的能力到底藏在哪里？

在讲 AI 之前，论文先讲了一个人类的故事。

一万年前，一个猎人要知道哪里有水、哪里有狼、怎么剥皮，全靠脑子记。脑子一死，知识清零。

后来有了语言 —— 可以把知识讲给下一代，知识开始脱离个体的大脑存活。

再后来有了文字 —— 不用人讲，刻在石头上、写在竹简上，知识彻底变成了外部的、可以跨代传递的东西。

再后来是印刷术 —— 知识可以复制上万份，成本趋近于零。

再后来是计算机 —— 知识不仅能存，还能被检索、被计算、被共享。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_API_03

每一步，都是同一个动作：把大脑里扛不动的东西，放到大脑外面去。

认知科学家唐纳德·诺曼给这个过程起了个名字：“认知外化”。他还提了一个很妙的观点：这些外部工具，不只是让你“想得更快”，而是把难想的事变成了容易想的事。

比如，口算“347 × 589”很难，但拿张纸列个竖式就容易得多。纸没有让你变聪明，纸只是替你扛住了中间结果的记忆负担 —— 它改变了任务本身的性质，把一个“回忆问题”变成了一个“识别问题”。

这篇论文的核心洞见就是：LLM Agent 正在重走这条路，而且走得一模一样。

论文把过去几年 AI Agent 的演进，清晰地分成了三个阶段。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_API_04

读到这里时，我真的有一种“历史在眼前铺开”的感觉。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_Code_05

这是大模型的蛮荒时代。GPT-3、GPT-4、PaLM、DeepSeek 相继问世。那时的信念很朴素：能力 = 参数里存的东西。

模型越大，记住的知识越多，推理链越长。Scaling Law 是唯一的信仰。大家相信，只要把模型喂得足够胖，它就能自己学会规划、学会用工具、学会和人协作。

但问题很快来了。

模型再大，也没法“选择性更新”。想让它忘掉一个过时的 API 文档？只能重新微调，成本巨大。

模型再大，一出 session 就失忆。昨天和你聊了两个小时的偏好，今天打开新窗口，它全忘了。

模型再大，让它用个新工具还是得手把手教。每次都要在 Prompt 里写一堆 few-shot 示例，解释这个工具怎么调用。

你会发现，模型已经足够聪明了，但它“干不成事”。不是脑子笨，是每次都在“从零开始”。

既然参数里改东西太贵太慢，大家开始打一个补丁：把需要的东西临时塞进输入里。

Prompt 工程、Few-shot、Chain-of-Thought、RAG（检索增强生成）……这些技术的本质都是：与其让模型“回忆”，不如让它“辨认”。你不指望它凭空想出答案，你把答案贴在鼻子底下让它挑。

这确实解决了一部分问题。模型不再需要死记硬背那些快速变化的知识了 —— 需要的时候，从外部知识库检索出来，塞进上下文窗口就行。

但这带来了新问题。

上下文窗口再大也是有限的（虽然有 1M token 的长上下文，但塞得越满，模型越容易“分心”，甚至出现“中间内容被忽略”的诡异现象）。

更要命的是：一出 session 就全忘了。Context 是“阅后即焚”的。你花半小时精心构建的上下文，对话一关，烟消云散。下次来，还得重新贴一遍。

这就像人类有了便利贴 —— 能临时记东西了，但风一吹就没了。

既然 Context 会失忆，那怎么办？把该记住的东西，持久化到模型外面去。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_API_06

建一个记忆库（Memory），存下用户偏好、历史对话、踩过的坑。

建一个技能库（Skills），把那些反复使用的流程 —— 比如“怎么写一个符合公司规范的 PRD”、“怎么跑这个项目的测试” —— 写成标准化的文档，随用随取。

定一套协议（Protocols），让模型和外部工具、和其他 Agent 交互时，不再靠猜，而是按照严格的“合同”来 —— 格式、权限、异常处理，都规定得明明白白。

再加一个沙箱执行环境（Sandbox），让模型的行动有边界、可撤回、可审计。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_Memory_07

这四个东西加起来，论文给了它一个名字：Harness（框架）。

它不是某一个具体的组件，而是围绕模型的整个运行时环境。相当于给那个聪明但健忘、能干但随性的“大脑”，造了一副完整的“身体”和“社会身份” —— 有记忆、有工具箱、有沟通契约、有行为守则。

Auto-GPT、MemGPT、MCP 协议、Claude Code…… 这些去年以来井喷的工具，本质上都是在做一件事：给大模型搭 Harness。

读到这里，你可能觉得：这不就是加了点工程优化吗？没什么新鲜的。

不。这篇论文最颠覆的地方，在于它给出了一个本体论层面的论断：

“能力不在模型里，在模型与环境的协议中。”

过去三年，整个 AI 圈对“能力”的默认定义是：能力 = 参数里编码的函数。这也是 Scaling Law 能成为“宗教”的原因 —— 更多参数 → 编码更多函数 → 能力更强。

但这篇论文说：这个定义错了。

能力不是模型单方面的属性，它是 “模型 + 外部基础设施”的联合属性。

同一个 GPT-4，放在原生的 API 里，它是一个能力；放在 Claude Code 的 Harness 里，它是另一个能力 —— 差距大到不像同一个模型。这个差距，不是 Prompt 调优能解释的，是外部的记忆、技能、协议、执行环境共同塑造出来的。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_Memory_08

一旦你接受了这个视角，很多事情都会被重新理解：

评测基准：让模型“裸考”毫无意义，应该评测“模型+Harness”这个整体系统。
安全性：不能只管模型对齐，要管整个 Harness 的权限、审计和回滚机制。
竞争优势：未来的护城河不在谁训了最大的模型，而在谁搭了最好的 Harness。
通用智能：可能不是一个模型属性，而是一个生态系统属性。

这个观点，和认知科学里的“具身认知”、“分布式认知”哲学上一脉相承。人类的智能从来不是孤立大脑的属性，它是 “大脑 + 语言 + 工具 + 他人 + 制度” 的联合属性。我们一直知道这个道理，但在 AI 讨论里忘了。这篇论文提醒我们记起来。

如果能力藏在“模型与环境的协议”里，那接下来的故事就不是“更大的模型”，而是 “更聪明的环境”。论文的第 8 章给出了几个非常具体的预测，我挑三个最有想象空间的说说。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里_Memory_09

现在的 Harness 还是人手写配置。记忆怎么压缩、技能怎么加载、协议怎么选，全靠工程师拍脑袋。

但既然“编排逻辑”本身也被外部化了，那它就可以被修改 —— 而且是被 AI 自己修改。

未来的 Harness 会自进化。当 Agent 反复在某个任务上失败时，它不再只是输出错误信息，而是会修改自己的配置文件或检索策略。比如发现自己总是在第三步跑偏，它会在 Skills.md 里给自己加一行警告；发现自己检索的记忆总是无关，它会调整检索的阈值。

框架代码的维护者，将从人类部分让渡给 Agent 本身。

现在我们疯狂给模型加外挂：接 1000 个工具、存 10 万条记忆、加载 50 个技能文件。但论文警告这会带来 “认知过载” —— 工具太多选花眼，记忆太长看走眼，技能文件太长反而干扰推理。

未来的竞争点，不再是“谁接的工具多”，而是谁的 Harness 调度更高效。

会出现专门做 “上下文预算路由器” 的技术。它像一个精明的秘书，只把最关键的 10% 的记忆、最相关的 1 个技能塞给模型，剩下的全拦在外面。做“减法”的能力，将比做“加法”更值钱。

这是论文第 8.6 节强调的死穴。现在的榜单（MMLU、HumanEval、SWE-bench）都在考一个没穿衣服的模型。但用户实际用的是 “模型 + 定制 Harness” 这个整体。

未来的评测，一定会要求你带着你的记忆库、技能包和沙箱一起来考试。

新的指标会出现：

转移性：换掉底模 GPT-5，只留 Harness，能力能保留多少？如果能保留 80%，说明你的 Harness 质量极高。
韧性：被恶意注入了一条错误记忆后，系统多久能自我纠正？
上下文效率：完成同样的任务，你的系统消耗了多少 token？越少越牛。

评测对象将从“模型”变成“套装”。

这篇论文让我最受触动的，是它把 AI 的发展，放到了人类认知演化的大背景里。

人类之所以成为人类，不是因为我们有最大的大脑（蓝的脑子比我们大得多），而是因为我们发明了外部存储 —— 语言、文字、印刷、计算机 —— 把认知负担一点点挪到了身体之外，从而释放出大脑去干更高级的事：规划、创造、抽象思考。

AI Agent 正在经历完全一样的蜕变。

过去三年，AI 在长“脑子” —— 参数从十亿涨到万亿，学会了推理、对话、写代码。

未来三年，AI 在长“身体”和“社会关系” —— 记忆库是它的“海马体”，技能库是它的“工具箱”，协议是它的“语言和法律”，框架是它的“生存环境”。

而这一切，才是它真正能“干活”的开始。

下一次当你看到一个 Agent 出色地完成了任务，别只夸“这模型真聪明”。想一想它背后的那套 Harness —— 那些替它记住历史的记忆系统，那些替它规范流程的技能文件，那些替它管住手脚的权限边界。

真正的智能，从来不在孤立的脑子里。它在脑子与世界的连接处。

这篇解读基于《Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering》及相关讨论。如果你对原论文感兴趣，可以在 arXiv 上搜索论文 ID 2604.08224 阅读全文。

如果这篇文章让你对 AI 的未来有了新的理解，欢迎分享给更多人。我们下篇见。

别只盯着模型参数了，AI Agent 真正“能用”的秘密，藏在这个被忽视的转变里

相关推荐