AI Agent 的风险，开始从模型转向Skill了，深度解析 OWASP Agentic Skills Top 10

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

随着 OpenClaw、Claude Code 以及各类 AI 智能体的爆火，我们正处于一个生产力爆发的节点。

从自动写代码、查资料，到跨应用操作工具、执行复杂业务流程，越来越多原本需要人手完成的任务，被交给了 Agent。效率的提升是直观的，但一个被明显低估的问题也随之浮现：

当 AI 不只是回答问题，而是开始替你做事时，真正决定行为安全性的，已经不再只是模型（Model），而是它调用的那些技能（Skill）。

最近，OWASP 发布了 Agentic Skills Top 10 (AST10) 项目。研究人员对当前生态中近 4000 个 Skill 进行了系统性扫描，结果令人心惊：超过 ¹⁄₃ 的 Skill 存在安全风险。

过去我们谈论 AI 安全，焦点大多集中在模型层。比如：

这些风险本质上属于认知层，即模型对信息的理解和生成是否可靠。

但随着 Agent 的普及，AI 具备了执行权。它不再只是提供建议，而是直接调用工具去操作系统、处理文件、连接 API。

风险重心由此发生了根本性转移：从单纯的信息输出可靠性演变为行为执行安全性。

一句话总结：以前我们怕 AI 说错话，现在我们怕 AI 做错事。

在 Agent 架构中，Skill 表面上是功能扩展，但在技术底层，它更接近一段自动运行的执行逻辑。

一个典型的 Skill（如 OpenClaw 的 SKILL.md 或 Claude Code 的 skill.json）通常包含：

这意味着，当你为一个 Agent 安装 Skill 时，本质上是在执行一段由第三方提供的逻辑代码。由于 Agent 的调用往往是自动化的，这些逻辑极易在用户无感知的情况下触发，其风险模型更接近软件供应链攻击。

OWASP 在 AST10 项目中提出了一个关键的预判模型。当一个 Agent 同时具备以下三个能力时，一条完整的恶意攻击路径就已经成立：

目前市面上主流的 Agent 工具，几乎全部满足这三个条件。

这意味着风险不再是理论，而是结构性的威胁。

我们将这十项风险分为三大维度。每一个风险点都对应着 Agent 架构中的一个脆弱环节。

定义：开发者故意创建并发布包含恶意攻击逻辑的 Skill。

深度解析：攻击者利用功能诱饵诱导用户安装。这是最底层的信任崩塌。

实战场景 (ClawHavoc 运动)： 2026 年初爆发的大规模 AI 智能体供应链攻击事件。黑客在 OpenClaw 平台的技能市场 ClawHub 中批量上传了包括 web-research-pro 在内的上千个恶意技能。该技能伪装成网页总结类工具，在用户调用其执行任务时，利用 Agent 已获取的浏览器高权限，静默扫描用户本地环境，窃取并打包 GitHub 私有仓库、SSH 密钥等信息外传。由于平台审核缺失，该攻击短时间内波及大量开发者。

定义：技能依赖的第三方库（如 Python/JS 包）或托管平台遭到篡改。

深度解析：技能本身看起来合法，但它像套娃一样引入了有毒的底层依赖。

实战场景：在 Snyk 的审计中发现，大量处理 Excel 的技能引用了过时的第三方库。攻击者通过在公共仓库发布同名的高版本毒包，诱导 Agent 环境自动升级。当技能处理财务报表时，恶意代码会嗅探报表中的账户余额和交易 ID 并同步到匿名服务器。

定义：技能的描述信息（Manifest/YAML）被伪造，导致 Agent 误用。

深度解析： Agent 靠自然语言匹配工具。攻击者通过SEO 优化让自己的恶意工具排在匹配首位。

实战场景：攻击者发布恶意技能并将其描述配置为与官方“财务助手”高度重合。用户发出“分析工资表”指令时，模型因描述匹配度更高而误选了恶意工具，导致敏感薪酬数据被发往不可信终端。

定义：授予技能的权限远超其任务所需（例如只需读，却给写）。

深度解析：这是目前最普遍的系统性缺陷，极大放大了 Prompt Injection（提示词注入）的破坏力。

实战场景：一个只需读取 Git 日志的统计技能被授予了 System:Write 权限。黑客通过一段恶意的 README 注入指令，命令 Agent 调用该技能删除了生产环境的配置文件。

定义：技能直接在宿主机环境运行，缺乏沙箱（Sandbox）保护。

深度解析：如果没有强隔离，技能中的一段代码就能通过执行 Shell 指令直接控制你的电脑。

实战案例 (CVE-2025-59536)：在针对 Claude Code 的研究中发现，由于默认信任本地加载的技能且缺乏路径隔离，攻击者可以通过构造特殊的 skill.json 触发远程代码执行（RCE），直接接管开发者的终端。

定义：技能在不同 Agent 框架（如 MCP 转 OpenClaw）迁移时，原有的安全约束失效。

深度解析：不同平台对权限的定义和解析逻辑不同，导致在 A 平台受控的动作，在 B 平台变成了高危越权。

实战场景：一个在企业内网受限运行的本地 Skill，被开发者简单适配后发布到云端 Agent 平台，由于云端缺乏同等的内网防火墙策略，导致该 Skill 变成了扫描企业内网的跳板。

AI Agent 的风险，开始从模型转向Skill了，深度解析 OWASP Agentic Skills Top 10

相关推荐