AI Agent 的风险,开始从模型转向Skill了,深度解析 OWASP Agentic Skills Top 10

AI Agent 的风险,开始从模型转向Skill了,深度解析 OWASP Agentic Skills Top 10随着 OpenClaw Claude Code 以及各类 AI 智能体的爆火 我们正处于一个生产力爆发的节点 从自动写代码 查资料 到跨应用操作工具 执行复杂业务流程 越来越多原本需要人手完成的任务 被交给了 Agent 效率的提升是直观的 但一个被明显低估的问题也随之浮现 当 AI 不只是回答问题 而是开始替你做事时 真正决定行为安全性的 已经不再只是模型 Model

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



随着 OpenClaw、Claude Code 以及各类 AI 智能体的爆火,我们正处于一个生产力爆发的节点。

从自动写代码、查资料,到跨应用操作工具、执行复杂业务流程,越来越多原本需要人手完成的任务,被交给了 Agent。效率的提升是直观的,但一个被明显低估的问题也随之浮现:

当 AI 不只是回答问题,而是开始替你做事时,真正决定行为安全性的,已经不再只是模型(Model),而是它调用的那些技能(Skill)。

最近,OWASP 发布了 Agentic Skills Top 10 (AST10) 项目。研究人员对当前生态中近 4000 个 Skill 进行了系统性扫描,结果令人心惊:超过 13 的 Skill 存在安全风险。


图片

过去我们谈论 AI 安全,焦点大多集中在模型层。比如:

这些风险本质上属于认知层,即模型对信息的理解和生成是否可靠。

但随着 Agent 的普及,AI 具备了执行权。它不再只是提供建议,而是直接调用工具去操作系统、处理文件、连接 API。

风险重心由此发生了根本性转移:从单纯的信息输出可靠性演变为行为执行安全性。

一句话总结:以前我们怕 AI 说错话,现在我们怕 AI 做错事

在 Agent 架构中,Skill 表面上是功能扩展,但在技术底层,它更接近一段自动运行的执行逻辑


图片

一个典型的 Skill(如 OpenClaw 的 SKILL.md 或 Claude Code 的 skill.json)通常包含:

这意味着,当你为一个 Agent 安装 Skill 时,本质上是在执行一段由第三方提供的逻辑代码。由于 Agent 的调用往往是自动化的,这些逻辑极易在用户无感知的情况下触发,其风险模型更接近软件供应链攻击

OWASP 在 AST10 项目中提出了一个关键的预判模型。当一个 Agent 同时具备以下三个能力时,一条完整的恶意攻击路径就已经成立:


图片

目前市面上主流的 Agent 工具,几乎全部满足这三个条件。

这意味着风险不再是理论,而是结构性的威胁。

我们将这十项风险分为三大维度。每一个风险点都对应着 Agent 架构中的一个脆弱环节。


图片

定义: 开发者故意创建并发布包含恶意攻击逻辑的 Skill。

深度解析: 攻击者利用功能诱饵诱导用户安装。这是最底层的信任崩塌。

实战场景 (ClawHavoc 运动):  2026 年初爆发的大规模 AI 智能体供应链攻击事件。黑客在 OpenClaw 平台的技能市场 ClawHub 中批量上传了包括 web-research-pro 在内的上千个恶意技能。该技能伪装成网页总结类工具,在用户调用其执行任务时,利用 Agent 已获取的浏览器高权限,静默扫描用户本地环境,窃取并打包 GitHub 私有仓库、SSH 密钥等信息外传。由于平台审核缺失,该攻击短时间内波及大量开发者。


定义: 技能依赖的第三方库(如 Python/JS 包)或托管平台遭到篡改。

深度解析: 技能本身看起来合法,但它像套娃一样引入了有毒的底层依赖。

实战场景: 在 Snyk 的审计中发现,大量处理 Excel 的技能引用了过时的第三方库。攻击者通过在公共仓库发布同名的高版本毒包,诱导 Agent 环境自动升级。当技能处理财务报表时,恶意代码会嗅探报表中的账户余额和交易 ID 并同步到匿名服务器。


定义: 技能的描述信息(Manifest/YAML)被伪造导致 Agent 误用。

深度解析: Agent 靠自然语言匹配工具。攻击者通过SEO 优化让自己的恶意工具排在匹配首位。

实战场景: 攻击者发布恶意技能并将其描述配置为与官方“财务助手”高度重合。用户发出“分析工资表”指令时,模型因描述匹配度更高而误选了恶意工具,导致敏感薪酬数据被发往不可信终端。


定义: 授予技能的权限远超其任务所需(例如只需读,却给写)。

深度解析: 这是目前最普遍的系统性缺陷,极大放大了 Prompt Injection(提示词注入)的破坏力。

实战场景: 一个只需读取 Git 日志的统计技能被授予了 System:Write 权限。黑客通过一段恶意的 README 注入指令,命令 Agent 调用该技能删除了生产环境的配置文件。


定义: 技能直接在宿主机环境运行,缺乏沙箱(Sandbox)保护。

深度解析: 如果没有强隔离,技能中的一段代码就能通过执行 Shell 指令直接控制你的电脑。

实战案例 (CVE-2025-59536): 在针对 Claude Code 的研究中发现,由于默认信任本地加载的技能且缺乏路径隔离,攻击者可以通过构造特殊的 skill.json 触发远程代码执行(RCE),直接接管开发者的终端。


定义: 技能在不同 Agent 框架(如 MCP 转 OpenClaw)迁移时,原有的安全约束失效。

深度解析: 不同平台对权限的定义和解析逻辑不同,导致在 A 平台受控的动作,在 B 平台变成了高危越权。

实战场景: 一个在企业内网受限运行的本地 Skill,被开发者简单适配后发布到云端 Agent 平台,由于云端缺乏同等的内网防火墙策略,导致该 Skill 变成了扫描企业内网的跳板。


小讯
上一篇 2026-04-26 21:08
下一篇 2026-04-26 21:06

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/280831.html