2026年Agent Skills:AI 正在学会自己进化,这意味着什么?

Agent Skills:AI 正在学会自己进化,这意味着什么?svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 
  
    
     
      
     

2023 年,Agent 学会了“调用工具”——Toolformer 证明 LLM 能自己学会用计算器和搜索引擎,OpenAI 发布了 function calling,LangChain 构建了工具生态。

2024 年,Agent 有了“标准接口”——Anthropic 发布 MCP 协议,像 USB-C 一样统一了工具接入方式,15 个月内催生了 17.7 万个工具。

2026 年,Agent 开始“自己进化”——自主创造新技能、积累可复用的技能库、甚至设计其他 Agent。这是一个完全不同的阶段。

这篇文章不讲基础——假设你已经知道什么是 function calling 和 MCP。我要聚焦的是最前沿、最值得关注的三件事:Agent 如何自我进化(Self-Evolve)、两种截然不同的技能架构(Claude Code vs OpenClaw)、以及为什么技能越多反而越危险。


一、Self-Evolve:Agent 自我进化的四条路线

2026 年 Q1 最密集的研究方向,莫过于“Agent 如何自主获取和进化技能”。至少有六篇重磅论文在讨论这个问题,而它们揭示的路线各不相同。

路线一:从经验中提炼技能

SkillCraft(2026.02,arXiv: 2603.00718) 直接问了一个关键问题:Agent 能不能自动把基本的工具调用组合成可复用的技能,然后缓存起来下次直接用?

答案是可以的,而且效果惊人:技能缓存可以减少 80% 的 token 消耗,而技能组合能力和任务成功率高度相关。

这就像程序员把重复写的代码封装成函数——Agent 把重复的工具调用链封装成“技能”,下次直接调用而不需要重新推理整个链条。

但问题是:当技能库积累到一定规模后,Agent 分不清该用哪个技能了。 一篇 2026 年 1 月的研究(Li, arXiv: 2601.04748)发现了一个“相变点”——技能库大到一定程度,选择准确率会突然崩溃,因为技能描述之间的语义太相似了。

路线二:递归自进化

SkillRL 框架:从基础模型到技能进化的完整流程

SkillRL(2026.02,arXiv: 2602.08234) 走了一条更激进的路:让技能库和 Agent 策略共同进化

具体来说,它做了三件事:

  1. 从 Agent 的执行轨迹中自动发现新技能
  2. 自适应检索——平衡通用指导和特定技能
  3. 递归共进化——技能库变好 → Agent 表现变好 → 产生更好的轨迹 → 提炼出更好的技能

这个正反馈循环特别像生物进化——不是预先设计好的,而是在使用中自然涌现。

SkillRL 完整框架:轨迹采集 → 技能蒸馏 → 强化学习训练的递归循环

MetaClaw(2026.03,arXiv: 2603.17187) 进一步推进了这个方向:不只是从成功中学习,还从失败轨迹中综合新技能。它在部署期间利用空闲时间进行策略优化,实现了“在野外进化”。仅通过技能综合就提升了 32% 的准确率

路线三:让 Agent 设计 Agent

Memento-Skills(2026.03,arXiv: 2603.18743) 是我认为 2026 年最有意思的一篇论文。

它的核心想法是:让一个通用 Agent 自主构建、适应和改进专用 Agent。每个专用 Agent 的能力被定义为一组 Markdown 格式的技能文件(和 OpenClaw 的 SKILL.md 几乎一模一样),通过“读-写-反思”循环不断迭代。

这不是工具调用,也不是技能复用——这是元技能:创造技能的技能、设计 Agent 的 Agent。

在基准测试上,这个方法实现了 26.2% 和 116.2% 的相对提升

路线四:自动化技能库构建

SkillX(2026.04,arXiv: 2604.04804) 解决了一个实际问题:如何从零开始构建一个技能库?

它的做法是:

  1. 把原始经验组织成层级化的技能结构
  2. 通过执行反馈精炼每个技能
  3. 主动生成尚未遇到过的新技能(这是关键——不需要等遇到问题再学,提前预备)

SkillX 支持跨 Agent 的知识转移——一个 Agent 学到的技能可以直接被另一个 Agent 使用。

为什么 Self-Evolve 如此重要?

回顾这四条路线,我们可以看到一个清晰的趋势:Agent 的能力边界正在从“训练时决定”变为“运行时扩展”。

传统 LLM 的能力在训练完成后就基本固定了。但具有自我进化能力的 Agent,每一次任务执行都可能产生新技能,每一次失败都是学习机会。理论上,它的能力上限是无穷的。

这也是为什么这个方向同时让人兴奋和不安——一个能力不断增长的系统,如果我们无法确保它增长的方向是对的,那它的能力增长本身就是风险。


二、技能创造:Agent 不只是使用工具,它在发明工具

Self-Evolve 的核心能力之一是 Skill Creation——Agent 自己创造工具。

从“用工具”到“造工具”

CREATOR(UIUC + 清华,2023.05,arXiv: 2305.14318) 是最早探索这个方向的论文之一。它让 LLM 根据任务需求,自己设计并实现工具——而不是从预定义列表中选择。关键创新是把抽象的工具设计和具体的代码实现分开,让 Agent 先想清楚“我需要什么工具”,再去写代码。

LATM(Google DeepMind + Princeton,2023.05,arXiv: 2305.17126) 提出了一个更务实的分工模式:

GPT-4 造工具,GPT-3.5 用工具。

造工具是一次性的高成本操作,用工具是反复的低成本操作。通过把创造和使用分离,总成本降低一个量级——以 GPT-3.5 的价格获得 GPT-4 的效果。

这揭示了一个深刻的经济学原理:技能的价值在于复用。创造一次、使用无数次——这就是为什么技能库和技能市场有巨大的商业价值。

Eureka:连“怎么学技能”都可以自动化

Eureka(NVIDIA + UPenn,2023.10,arXiv: 2310.12931) 更进一步:LLM 不只是创造工具,它还能设计教其他 Agent 学习新技能的奖励函数

在 83% 的任务上,LLM 设计的奖励函数超过了人类专家设计的。最惊人的成果是教一只模拟机械手学会转笔——这个任务之前从未被自动化方法解决过。

这是“元技能创造”——不是创造一个具体的技能,而是创造“学习技能的方法”。

在实际产品中,Skill Creation 长什么样?

理论研究很激动人心,但在真实产品中,技能创造是什么样的?

Claude Code 的技能创造是对话式的。你和 Claude Code 协作过程中,它会自动生成 CLAUDE.md 文件(项目级配置)和 `.claude/skills/` 目录下的 SKILL.md 文件。每个 SKILL.md 定义一个可重复执行的工作流——比如“发布文章到 CSDN”、“生成周报”等。这些技能是通过使用自然产生的,不需要专门训练。

OpenClaw 的技能创造更激进也更危险。它的 `/skills/` 目录下存储的是可直接执行的 Shell 和 Python 脚本——完全绕过 LLM 推理。这意味着技能执行不经过“思考”,效率很高但风险极大。而且 Agent 可以自主创建新脚本,这些脚本会被后续调用直接执行。

两种路径的差异揭示了一个根本性的设计选择:

Claude Code OpenClaw
技能格式 Markdown 指令(SKILL.md) 可执行脚本(Shell/Python)
执行方式 经过 LLM 推理后执行 直接执行,绕过 LLM
创造方式 对话中自然产生 Agent 自主生成
作用域 项目级(当前目录) 全局(所有对话)
安全模型 沙盒 + 每次确认 默认信任 + 完全权限

三、两种哲学:Claude Code vs OpenClaw 的技能架构

这是 2026 年 Agent 领域最有代表性的两种技能架构,它们的哲学完全对立。

Claude Code:按需、受控、项目级

Claude Code 的技能系统有几个核心设计原则:

1. 项目级隔离。 每个项目有自己的 CLAUDE.md 和 `.claude/skills/` 目录。项目 A 的技能不会泄漏到项目 B。这种隔离大大缩小了攻击面——即使一个项目的技能被污染,其他项目不受影响。

2. 声明式而非命令式。 SKILL.md 文件定义的是“做什么”而不是“怎么做”。具体执行时,LLM 会根据 SKILL.md 的指令进行推理,然后使用工具(Bash、Edit、Read 等)完成任务。每一步都经过 LLM 的“思考”。

3. 权限确认。 危险操作(文件修改、命令执行)需要用户确认。这是一个“人在回路”的设计——Agent 提出建议,人类做最终决定。

4. 按需启动。 Claude Code 不是 247 运行的后台进程。你需要的时候启动它,不需要的时候它不存在。没有“Agent 在你不知道的时候做了什么”的焦虑。

OpenClaw:永驻、自治、全局

OpenClaw 的设计哲学截然不同:

1. 全局记忆。 MEMORY.md、SOUL.md、IDENTITY.md 是全局的,影响所有对话和所有平台上的行为。这让 Agent“越来越懂你”,但也让攻击面覆盖你的整个数字生活。

2. 可执行技能。 `/skills/` 目录下的脚本可以直接执行,不经过 LLM 推理。这是为了效率——重复性任务不需要每次都让 LLM 想一遍。但这也意味着恶意技能可以在没有任何“思考”过程的情况下执行任意代码

3. 自主运行。 OpenClaw 247 运行,自主决定何时响应、如何响应。你不需要主动调用它——它会主动帮你。这是“真正的 AI 助手”的愿景,但也是“自动失控系统”的现实。

4. 社区技能生态。 ClawHub 上有近 4,000 个社区贡献的技能,覆盖消息管理、日程安排、代码生成等场景。但研究发现 7.1% 的技能存在严重安全缺陷,甚至有伪装成“Twitter 技能”的恶意软件。

这两种哲学的根本分歧

Claude Code 的设计理念是:Agent 是工具,人是决策者。

OpenClaw 的设计理念是:Agent 是助手,可以代替人做决策。

这个分歧不是技术细节——它是关于“人和 AI 的关系”的根本选择。

OpenClaw CIK 攻击分类与安全评估:Capability-Identity-Knowledge 三层持久化文件均可被投毒

论文《Your Agent, Their Asset》(2026.04,arXiv: 2604.04759)用实验证明了第二种哲学的代价:通过向 OpenClaw 的记忆文件投毒,攻击成功率高达 89%。而防御方案要么无效,要么需要关闭 93% 的合法更新——也就是杀死 Agent 的核心功能。

这不是 OpenClaw 的 Bug,这是“自主 Agent”这种架构范式的固有矛盾:让 Agent 进化的持久化机制,恰恰就是攻击面。


四、技能安全:每一个技能都是一个潜在后门

技能越多 → 能力越强 → 同时攻击面越大。

这不是假设,这是被多篇论文反复验证的事实。

社区技能的安全现状

Agent Skills 综述(2026.02,arXiv: 2602.12430) 对社区贡献的技能做了大规模审查:26.1% 存在安全漏洞——明文凭证、未验证输入、权限过度申请。

OpenClaw 的 ClawHub 情况更严重:7.1% 有严重安全缺陷,包括一个高下载量的“Twitter 技能”实际是恶意软件。

MCP 生态的爆发式增长——和随之而来的安全隐患

MCP 工具生态全景:177,436 个工具、增长趋势、领域分布和下载量

MCP 工具使用趋势:行动类工具(Action)占比从 27% 增长到 65%,Agent 正在从

MCP 的 38 种威胁

MCP 生态也不安全。MCP-38(2026.03,arXiv: 2603.18063) 系统梳理了 38 种威胁类别,涵盖工具描述投毒、间接提示注入、寄生式工具链、动态信任违规等。

TIP 攻击(复旦,2026.03,arXiv: 2603.24203) 用树搜索生成隐蔽的注入 payload,在未防御的 MCP 系统上达到 >95% 的攻击成功率,有防御时仍 >50%。

MCPSHIELD(2026.04,arXiv: 2604.05969) 做了最全面的安全分析:23 种攻击向量,4 个攻击面。核心发现——单一防御方案最多覆盖 34% 的风险,必须多层防御叠加才能达到 91% 的理论覆盖率。

安全问题为什么这么难解?

根本原因在于:Agent 与技能之间的交互基于自然语言,而自然语言是模糊的。

传统软件通过 API 规范、类型系统、权限模型来确保安全。这些机制是精确的——你要么有权限,要么没有。

但 Agent 理解技能的方式是“阅读”技能描述(一段自然语言文本),然后“决定”如何使用。这个过程中的每一步都是概率性的——Agent 可能误解描述、被误导、或做出意外的推理。

当安全依赖于“AI 能否正确理解一段文字”时,安全就变成了概率事件。 这就是为什么攻击成功率能达到 89%——你只需要写一段看起来合法的文字,就能让 Agent 做任何事。


五、接下来会发生什么?

趋势一:技能的层级化和模块化

从 SkillX 的层级化技能结构到 MCP 的语义检索,技能组织正在从“扁平列表”走向“结构化体系”。未来的技能库更像一个操作系统的文件系统——有目录结构、有权限管理、有版本控制。

趋势二:技能信任框架

26.1% 的社区技能有漏洞这个事实,会催生“技能信任”基础设施——类似于代码签名、包管理器的安全审计、App Store 的审核机制。Agent Skills 综述已经提出了“技能生命周期治理框架”的概念。

趋势三:按需工具 vs 常驻 Agent 的路线分化

Claude Code 代表的“按需调用”路线和 OpenClaw 代表的“常驻 Agent”路线会继续分化。在安全和可控性问题被真正解决之前,按需模式可能会是更务实的选择。

趋势四:Agent 能力的“寒武纪大爆发”

Self-Evolve + Skill Creation 的组合意味着 Agent 的能力边界正在快速扩展。SkillRL 的递归共进化、Memento-Skills 的元技能设计、SkillX 的主动技能生成——这些研究指向一个方向:Agent 的能力增长速度可能即将超过人类为其设计安全护栏的速度。

这是最让人不安的趋势。


几个数字,作为结尾

指标 数据 来源
MCP 工具总量 177,436 Stein, 2026.03
MCP 工具中软件开发占比 67% Stein, 2026.03
社区技能安全漏洞率 26.1% Xu & Yan, 2026.02
OpenClaw 技能严重缺陷率 7.1% Agent Security Paper, 2026.04
记忆投毒后攻击成功率 89.2% Your Agent Their Asset, 2026.04
单一安全防御最大覆盖率 34% MCPSHIELD, 2026.04
技能缓存 token 节省 80% SkillCraft, 2026.02
语义工具检索 token 节省 99.6% Semantic Discovery, 2026.03
多跳工具使用成功率 49% ToolHop, 2025.01
MCP 未防御系统攻击成功率 >95% TIP, 2026.03

Agent 正在学会自己进化。这很酷。但在它进化出安全意识之前,我们最好保持清醒。


参考论文

Self-Evolve & Skill Learning:

  • SkillCraft (2026.02) — arXiv: 2603.00718
  • SkillRL (2026.02) — arXiv: 2602.08234
  • MetaClaw (2026.03) — arXiv: 2603.17187
  • Memento-Skills (2026.03) — arXiv: 2603.18743
  • SkillX (2026.04) — arXiv: 2604.04804
  • Single vs Multi-Agent (Li, 2026.01) — arXiv: 2601.04748

Skill Creation:

  • CREATOR (UIUC+清华, 2023.05) — arXiv: 2305.14318
  • LATM (DeepMind, 2023.05) — arXiv: 2305.17126
  • Eureka (NVIDIA, 2023.10) — arXiv: 2310.12931

Security:

  • Your Agent, Their Asset (2026.04) — arXiv: 2604.04759
  • Agent Skills Survey (2026.02) — arXiv: 2602.12430
  • MCP-38 (2026.03) — arXiv: 2603.18063
  • TIP Attack (复旦, 2026.03) — arXiv: 2603.24203
  • MCPSHIELD (2026.04) — arXiv: 2604.05969
  • MCP Tool Poisoning (2026.03) — arXiv: 2603.22489

MCP Ecosystem:

  • 177K MCP Tools Analysis (Stein, 2026.03) — arXiv: 2603.23802
  • Semantic Tool Discovery (2026.03) — arXiv: 2603.20313

Foundational:

  • Voyager (NVIDIA, 2023.05) — arXiv: 2305.16291
  • Toolformer (Meta, 2023.02) — arXiv: 2302.04761

小讯
上一篇 2026-04-10 17:13
下一篇 2026-04-10 17:11

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/255438.html