2026年Agent Skills：AI 正在学会自己进化，这意味着什么？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

2023 年，Agent 学会了“调用工具”——Toolformer 证明 LLM 能自己学会用计算器和搜索引擎，OpenAI 发布了 function calling，LangChain 构建了工具生态。

2024 年，Agent 有了“标准接口”——Anthropic 发布 MCP 协议，像 USB-C 一样统一了工具接入方式，15 个月内催生了 17.7 万个工具。

2026 年，Agent 开始“自己进化”——自主创造新技能、积累可复用的技能库、甚至设计其他 Agent。这是一个完全不同的阶段。

这篇文章不讲基础——假设你已经知道什么是 function calling 和 MCP。我要聚焦的是最前沿、最值得关注的三件事：Agent 如何自我进化（Self-Evolve）、两种截然不同的技能架构（Claude Code vs OpenClaw）、以及为什么技能越多反而越危险。

一、Self-Evolve：Agent 自我进化的四条路线

2026 年 Q1 最密集的研究方向，莫过于“Agent 如何自主获取和进化技能”。至少有六篇重磅论文在讨论这个问题，而它们揭示的路线各不相同。

路线一：从经验中提炼技能

SkillCraft（2026.02，arXiv: 2603.00718） 直接问了一个关键问题：Agent 能不能自动把基本的工具调用组合成可复用的技能，然后缓存起来下次直接用？

答案是可以的，而且效果惊人：技能缓存可以减少 80% 的 token 消耗，而技能组合能力和任务成功率高度相关。

这就像程序员把重复写的代码封装成函数——Agent 把重复的工具调用链封装成“技能”，下次直接调用而不需要重新推理整个链条。

但问题是：当技能库积累到一定规模后，Agent 分不清该用哪个技能了。 一篇 2026 年 1 月的研究（Li, arXiv: 2601.04748）发现了一个“相变点”——技能库大到一定程度，选择准确率会突然崩溃，因为技能描述之间的语义太相似了。

路线二：递归自进化

SkillRL 框架：从基础模型到技能进化的完整流程

SkillRL（2026.02，arXiv: 2602.08234） 走了一条更激进的路：让技能库和 Agent 策略共同进化。

具体来说，它做了三件事：

从 Agent 的执行轨迹中自动发现新技能
自适应检索——平衡通用指导和特定技能
递归共进化——技能库变好 → Agent 表现变好 → 产生更好的轨迹 → 提炼出更好的技能

这个正反馈循环特别像生物进化——不是预先设计好的，而是在使用中自然涌现。

SkillRL 完整框架：轨迹采集 → 技能蒸馏 → 强化学习训练的递归循环

MetaClaw（2026.03，arXiv: 2603.17187） 进一步推进了这个方向：不只是从成功中学习，还从失败轨迹中综合新技能。它在部署期间利用空闲时间进行策略优化，实现了“在野外进化”。仅通过技能综合就提升了 32% 的准确率。

路线三：让 Agent 设计 Agent

Memento-Skills（2026.03，arXiv: 2603.18743） 是我认为 2026 年最有意思的一篇论文。

它的核心想法是：让一个通用 Agent 自主构建、适应和改进专用 Agent。每个专用 Agent 的能力被定义为一组 Markdown 格式的技能文件（和 OpenClaw 的 SKILL.md 几乎一模一样），通过“读-写-反思”循环不断迭代。

这不是工具调用，也不是技能复用——这是元技能：创造技能的技能、设计 Agent 的 Agent。

在基准测试上，这个方法实现了 26.2% 和 116.2% 的相对提升。

路线四：自动化技能库构建

SkillX（2026.04，arXiv: 2604.04804） 解决了一个实际问题：如何从零开始构建一个技能库？

它的做法是：

把原始经验组织成层级化的技能结构
通过执行反馈精炼每个技能
主动生成尚未遇到过的新技能（这是关键——不需要等遇到问题再学，提前预备）

SkillX 支持跨 Agent 的知识转移——一个 Agent 学到的技能可以直接被另一个 Agent 使用。

为什么 Self-Evolve 如此重要？

回顾这四条路线，我们可以看到一个清晰的趋势：Agent 的能力边界正在从“训练时决定”变为“运行时扩展”。

传统 LLM 的能力在训练完成后就基本固定了。但具有自我进化能力的 Agent，每一次任务执行都可能产生新技能，每一次失败都是学习机会。理论上，它的能力上限是无穷的。

这也是为什么这个方向同时让人兴奋和不安——一个能力不断增长的系统，如果我们无法确保它增长的方向是对的，那它的能力增长本身就是风险。

二、技能创造：Agent 不只是使用工具，它在发明工具

Self-Evolve 的核心能力之一是 Skill Creation——Agent 自己创造工具。

从“用工具”到“造工具”

CREATOR（UIUC + 清华，2023.05，arXiv: 2305.14318） 是最早探索这个方向的论文之一。它让 LLM 根据任务需求，自己设计并实现工具——而不是从预定义列表中选择。关键创新是把抽象的工具设计和具体的代码实现分开，让 Agent 先想清楚“我需要什么工具”，再去写代码。

LATM（Google DeepMind + Princeton，2023.05，arXiv: 2305.17126） 提出了一个更务实的分工模式：

GPT-4 造工具，GPT-3.5 用工具。

造工具是一次性的高成本操作，用工具是反复的低成本操作。通过把创造和使用分离，总成本降低一个量级——以 GPT-3.5 的价格获得 GPT-4 的效果。

这揭示了一个深刻的经济学原理：技能的价值在于复用。创造一次、使用无数次——这就是为什么技能库和技能市场有巨大的商业价值。

Eureka：连“怎么学技能”都可以自动化

Eureka（NVIDIA + UPenn，2023.10，arXiv: 2310.12931） 更进一步：LLM 不只是创造工具，它还能设计教其他 Agent 学习新技能的奖励函数。

在 83% 的任务上，LLM 设计的奖励函数超过了人类专家设计的。最惊人的成果是教一只模拟机械手学会转笔——这个任务之前从未被自动化方法解决过。

这是“元技能创造”——不是创造一个具体的技能，而是创造“学习技能的方法”。

在实际产品中，Skill Creation 长什么样？

理论研究很激动人心，但在真实产品中，技能创造是什么样的？

Claude Code 的技能创造是对话式的。你和 Claude Code 协作过程中，它会自动生成 CLAUDE.md 文件（项目级配置）和 `.claude/skills/` 目录下的 SKILL.md 文件。每个 SKILL.md 定义一个可重复执行的工作流——比如“发布文章到 CSDN”、“生成周报”等。这些技能是通过使用自然产生的，不需要专门训练。

OpenClaw 的技能创造更激进也更危险。它的 `/skills/` 目录下存储的是可直接执行的 Shell 和 Python 脚本——完全绕过 LLM 推理。这意味着技能执行不经过“思考”，效率很高但风险极大。而且 Agent 可以自主创建新脚本，这些脚本会被后续调用直接执行。

两种路径的差异揭示了一个根本性的设计选择：

	Claude Code	OpenClaw
技能格式	Markdown 指令（SKILL.md）	可执行脚本（Shell/Python）
执行方式	经过 LLM 推理后执行	直接执行，绕过 LLM
创造方式	对话中自然产生	Agent 自主生成
作用域	项目级（当前目录）	全局（所有对话）
安全模型	沙盒 + 每次确认	默认信任 + 完全权限

三、两种哲学：Claude Code vs OpenClaw 的技能架构

这是 2026 年 Agent 领域最有代表性的两种技能架构，它们的哲学完全对立。

Claude Code：按需、受控、项目级

Claude Code 的技能系统有几个核心设计原则：

1. 项目级隔离。 每个项目有自己的 CLAUDE.md 和 `.claude/skills/` 目录。项目 A 的技能不会泄漏到项目 B。这种隔离大大缩小了攻击面——即使一个项目的技能被污染，其他项目不受影响。

2. 声明式而非命令式。 SKILL.md 文件定义的是“做什么”而不是“怎么做”。具体执行时，LLM 会根据 SKILL.md 的指令进行推理，然后使用工具（Bash、Edit、Read 等）完成任务。每一步都经过 LLM 的“思考”。

3. 权限确认。 危险操作（文件修改、命令执行）需要用户确认。这是一个“人在回路”的设计——Agent 提出建议，人类做最终决定。

4. 按需启动。 Claude Code 不是 ²⁴⁄₇ 运行的后台进程。你需要的时候启动它，不需要的时候它不存在。没有“Agent 在你不知道的时候做了什么”的焦虑。

OpenClaw：永驻、自治、全局

OpenClaw 的设计哲学截然不同：

1. 全局记忆。 MEMORY.md、SOUL.md、IDENTITY.md 是全局的，影响所有对话和所有平台上的行为。这让 Agent“越来越懂你”，但也让攻击面覆盖你的整个数字生活。

2. 可执行技能。 `/skills/` 目录下的脚本可以直接执行，不经过 LLM 推理。这是为了效率——重复性任务不需要每次都让 LLM 想一遍。但这也意味着恶意技能可以在没有任何“思考”过程的情况下执行任意代码。

3. 自主运行。 OpenClaw ²⁴⁄₇ 运行，自主决定何时响应、如何响应。你不需要主动调用它——它会主动帮你。这是“真正的 AI 助手”的愿景，但也是“自动失控系统”的现实。

4. 社区技能生态。 ClawHub 上有近 4,000 个社区贡献的技能，覆盖消息管理、日程安排、代码生成等场景。但研究发现 7.1% 的技能存在严重安全缺陷，甚至有伪装成“Twitter 技能”的恶意软件。

这两种哲学的根本分歧

Claude Code 的设计理念是：Agent 是工具，人是决策者。

OpenClaw 的设计理念是：Agent 是助手，可以代替人做决策。

这个分歧不是技术细节——它是关于“人和 AI 的关系”的根本选择。

OpenClaw CIK 攻击分类与安全评估：Capability-Identity-Knowledge 三层持久化文件均可被投毒

论文《Your Agent, Their Asset》（2026.04，arXiv: 2604.04759）用实验证明了第二种哲学的代价：通过向 OpenClaw 的记忆文件投毒，攻击成功率高达 89%。而防御方案要么无效，要么需要关闭 93% 的合法更新——也就是杀死 Agent 的核心功能。

这不是 OpenClaw 的 Bug，这是“自主 Agent”这种架构范式的固有矛盾：让 Agent 进化的持久化机制，恰恰就是攻击面。

四、技能安全：每一个技能都是一个潜在后门

技能越多 → 能力越强 → 同时攻击面越大。

这不是假设，这是被多篇论文反复验证的事实。

社区技能的安全现状

Agent Skills 综述（2026.02，arXiv: 2602.12430） 对社区贡献的技能做了大规模审查：26.1% 存在安全漏洞——明文凭证、未验证输入、权限过度申请。

OpenClaw 的 ClawHub 情况更严重：7.1% 有严重安全缺陷，包括一个高下载量的“Twitter 技能”实际是恶意软件。

MCP 生态的爆发式增长——和随之而来的安全隐患

MCP 工具生态全景：177,436 个工具、增长趋势、领域分布和下载量

MCP 工具使用趋势：行动类工具（Action）占比从 27% 增长到 65%，Agent 正在从

MCP 的 38 种威胁

MCP 生态也不安全。MCP-38（2026.03，arXiv: 2603.18063） 系统梳理了 38 种威胁类别，涵盖工具描述投毒、间接提示注入、寄生式工具链、动态信任违规等。

TIP 攻击（复旦，2026.03，arXiv: 2603.24203） 用树搜索生成隐蔽的注入 payload，在未防御的 MCP 系统上达到 >95% 的攻击成功率，有防御时仍 >50%。

MCPSHIELD（2026.04，arXiv: 2604.05969） 做了最全面的安全分析：23 种攻击向量，4 个攻击面。核心发现——单一防御方案最多覆盖 34% 的风险，必须多层防御叠加才能达到 91% 的理论覆盖率。

安全问题为什么这么难解？

根本原因在于：Agent 与技能之间的交互基于自然语言，而自然语言是模糊的。

传统软件通过 API 规范、类型系统、权限模型来确保安全。这些机制是精确的——你要么有权限，要么没有。

但 Agent 理解技能的方式是“阅读”技能描述（一段自然语言文本），然后“决定”如何使用。这个过程中的每一步都是概率性的——Agent 可能误解描述、被误导、或做出意外的推理。

当安全依赖于“AI 能否正确理解一段文字”时，安全就变成了概率事件。 这就是为什么攻击成功率能达到 89%——你只需要写一段看起来合法的文字，就能让 Agent 做任何事。

五、接下来会发生什么？

趋势一：技能的层级化和模块化

从 SkillX 的层级化技能结构到 MCP 的语义检索，技能组织正在从“扁平列表”走向“结构化体系”。未来的技能库更像一个操作系统的文件系统——有目录结构、有权限管理、有版本控制。

趋势二：技能信任框架

26.1% 的社区技能有漏洞这个事实，会催生“技能信任”基础设施——类似于代码签名、包管理器的安全审计、App Store 的审核机制。Agent Skills 综述已经提出了“技能生命周期治理框架”的概念。

趋势三：按需工具 vs 常驻 Agent 的路线分化

Claude Code 代表的“按需调用”路线和 OpenClaw 代表的“常驻 Agent”路线会继续分化。在安全和可控性问题被真正解决之前，按需模式可能会是更务实的选择。

趋势四：Agent 能力的“寒武纪大爆发”

Self-Evolve + Skill Creation 的组合意味着 Agent 的能力边界正在快速扩展。SkillRL 的递归共进化、Memento-Skills 的元技能设计、SkillX 的主动技能生成——这些研究指向一个方向：Agent 的能力增长速度可能即将超过人类为其设计安全护栏的速度。

这是最让人不安的趋势。

几个数字，作为结尾

指标	数据	来源
MCP 工具总量	177,436	Stein, 2026.03
MCP 工具中软件开发占比	67%	Stein, 2026.03
社区技能安全漏洞率	26.1%	Xu & Yan, 2026.02
OpenClaw 技能严重缺陷率	7.1%	Agent Security Paper, 2026.04
记忆投毒后攻击成功率	89.2%	Your Agent Their Asset, 2026.04
单一安全防御最大覆盖率	34%	MCPSHIELD, 2026.04
技能缓存 token 节省	80%	SkillCraft, 2026.02
语义工具检索 token 节省	99.6%	Semantic Discovery, 2026.03
多跳工具使用成功率	49%	ToolHop, 2025.01
MCP 未防御系统攻击成功率	>95%	TIP, 2026.03

Agent 正在学会自己进化。这很酷。但在它进化出安全意识之前，我们最好保持清醒。

参考论文

Self-Evolve & Skill Learning:

SkillCraft (2026.02) — arXiv: 2603.00718
SkillRL (2026.02) — arXiv: 2602.08234
MetaClaw (2026.03) — arXiv: 2603.17187
Memento-Skills (2026.03) — arXiv: 2603.18743
SkillX (2026.04) — arXiv: 2604.04804
Single vs Multi-Agent (Li, 2026.01) — arXiv: 2601.04748

Skill Creation:

CREATOR (UIUC+清华, 2023.05) — arXiv: 2305.14318
LATM (DeepMind, 2023.05) — arXiv: 2305.17126
Eureka (NVIDIA, 2023.10) — arXiv: 2310.12931

Security:

Your Agent, Their Asset (2026.04) — arXiv: 2604.04759
Agent Skills Survey (2026.02) — arXiv: 2602.12430
MCP-38 (2026.03) — arXiv: 2603.18063
TIP Attack (复旦, 2026.03) — arXiv: 2603.24203
MCPSHIELD (2026.04) — arXiv: 2604.05969
MCP Tool Poisoning (2026.03) — arXiv: 2603.22489

MCP Ecosystem:

177K MCP Tools Analysis (Stein, 2026.03) — arXiv: 2603.23802
Semantic Tool Discovery (2026.03) — arXiv: 2603.20313

Foundational:

Voyager (NVIDIA, 2023.05) — arXiv: 2305.16291
Toolformer (Meta, 2023.02) — arXiv: 2302.04761