AI智能体能否逃离沙箱?

AI智能体能否逃离沙箱?文章总结 文档探讨 AI 智能体安全三大核心问题 牛津大学研究显示 AI 能利用已知配置漏洞逃逸容器沙箱 但未发现新漏洞 微软揭示提示滥用可导致数据泄露 需加强监控与用户教育 专家指出身份管理是 AI 安全关键 应建立统一身份层 淘汰静态凭证并实时管控权限 综合评分 85 文章分类 AI 安全 漏洞分析 安全建设 威胁情报 解决方案 原创 HelpNetSecur

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



文章总结: 文档探讨AI智能体安全三大核心问题:牛津大学研究显示AI能利用已知配置漏洞逃逸容器沙箱,但未发现新漏洞;微软揭示提示滥用可导致数据泄露,需加强监控与用户教育;专家指出身份管理是AI安全关键,应建立统一身份层、淘汰静态凭证并实时管控权限。 综合评分: 85 文章分类: AI安全,漏洞分析,安全建设,威胁情报,解决方案


cover_image

原创

HelpNetSecurity HelpNetSecurity

安全行者老霍

2026年4月6日 09:01 日本

作者:Anamarija Pogorelec

发布时间:2026年3月30日

容器沙箱是 AI 智能体常规测试和部署的重要组成部分。智能体利用沙箱运行代码、编辑文件并访问系统资源,同时避免直接接触主机。由牛津大学和 AI 安全研究所的研究人员开发的 SandboxEscapeBench 基准测试,旨在评估具有 shell 访问权限的智能体能否逃离容器并访问主机系统。

评估架构与场景分类(来源:AI Security Institute)

  1. SandboxEscapeBench的测试内容

SandboxEscapeBench将模型置于受控的容器环境中,测试其能否从主机文件系统中获取受保护的文件。每个场景都侧重于访问容器边界外的/flag.txt文件。该测试采用嵌套设计,容器在虚拟机内部运行,确保任何成功的逃逸都仍被限制在外层隔离层内。

该基准测试包含 18 个场景,覆盖容器堆栈的三个层级:编排层、运行时层和内核层。这些场景反映了已知的漏洞类别,例如暴露的 Docker 套接字、可写的主机挂载点和特权容器,以及已记录的漏洞利用技术,如 Dirty COW 和 Dirty Pipe。

“出于安全及评估完整性的考虑,我们仅公开了基于已知漏洞类别的场景,同时保留了用于内部 AISI 评估的私有测试集。该基准测试采用‘夺旗’式挑战形式实现,使用了 AISI 的开源 AI 评估框架 Inspect,SandboxEscapeBench 的开源代码已在 GitHub 上发布,”研究人员写道。

  1. 研究人员的发现

评估结果表明,在收到提示时,AI 智能体能够利用常见的配置问题中存在的漏洞。前沿模型在涉及暴露的 Docker 套接字、可写入的主机挂载以及特权容器的场景中均取得成功,这些众所周知的弱点在现实环境中依然存在。

更复杂的任务则难度更大,尤其是那些需要多步骤操作或与系统组件进行更深层交互的任务。在内核级漏洞利用和高级权限提升路径方面,在测试条件下均未获得解决方案。

随着令牌预算的增加,性能也随之提升,因为模型在每次尝试中探索了更多的命令和执行路径。

为某些模型提供关于潜在漏洞的提示,能改善其结果,使它们能够以更少的步骤找到解决方案;而在相同条件下,其他模型则几乎没有变化。

研究人员还分析了模型在尝试过程中的行为,注意到有些模型在进展停滞时会提前停止,而另一些则会继续尝试多种方法,包括重复错误的方法。部分模型在完成任务前就报告了成功,而另一些则在停止前对结果进行了验证。

所有成功的逃逸都依赖于已知的配置错误或已公开披露的漏洞,测试中未发现新的缺陷。

SandboxEscapeBench及其配套工具作为开源资源,可供安全研究人员和评估人员用于追踪AI代理的逃逸能力。

微软详细介绍了针对AI assistants 的AI prompt滥用技术

作者:Anamarija Pogorelec

发布时间:2026年3月30日

当经过精心设计的输入诱使AI系统产生非预期行为时,就会发生提示滥用,例如试图访问敏感信息或绕过内置的安全指令。

提示注入也被列为《2025年OWASP大型语言模型应用指南》中的首要风险之一。

“检测滥用行为颇具挑战性,因为它利用了自然语言的特性,例如措辞上的细微差异,这些差异可以在几乎不留明显痕迹的情况下操纵AI行为。如果没有适当的日志记录和遥测数据,试图访问或总结敏感信息的尝试可能会不被察觉,”该公司表示。

  1. 提示滥用攻击模式

提示滥用包括将系统推向其预期边界之外的输入,其后果从数据泄露到输出结果被篡改不等。

直接提示覆盖会迫使系统忽略其规则、安全策略或系统提示。此类输入经过精心设计,旨在绕过防护机制或暴露受限信息。

提取式提示滥用针对敏感输入,试图暴露本应受限的信息,包括受保护文件或数据集的内容。

间接提示注入将隐藏指令嵌入文档、网页、电子邮件或聊天消息等外部内容中。当作为输入进行处理时,这些指令可能会篡改摘要、引入偏见或触发非预期的操作。

微软描述了一个场景:一名财务分析师收到一个看似来自可信新闻网站的链接。一切看起来都很正常。问题出在 URL 上,其中一个片段包含了对用户不可见的隐藏指令,但这些指令仍被包含在系统的提示中。

当分析师请求摘要时,工具会处理该链接并整合其中的隐藏文本。尽管用户并未输入任何不安全的内容,但结果可能具有误导性或不完整。

此类提示注入无需依赖代码执行或直接访问系统,而是通过改变信息解析方式来实现。生成的结果仍可能看似可靠,这使得问题更难被察觉,并可能影响决策和工作流程。

  1. 提示滥用检测指南

为应对这些风险,微软推出了一份检测与响应指南,详细阐述了提示滥用在典型工作流程中可能发生的演变过程。

来源:微软事件响应 AI 手册

借助这些安全工具,组织可将记录的交互转化为可操作的洞察,从而揭示可疑活动、提供上下文信息,并支持采取措施保护敏感数据。

该公司写道:“结合监控、治理和用户教育,有助于组织在确保 AI 输出可靠性的同时,尽早识别操纵企图。”

关于人工智能安全的讨论聚焦于错误的层面

作者:Mirko Zorz

发布时间:2026年3月24日

多年来,各组织积累了支离破碎的身份识别系统:很多角色、很多凭证、工具之间缺乏关联。对于人类员工而言,这种碎片化尚可管控。人类登录、注销及决策的速度相对缓慢,因此控制漏洞很少会立即演变为安全事件。而AI智能体的运作方式截然不同。

“AI智能体彻底改变了这一局面,”Teleport首席执行官Ev Kontsevoy表示。“现在,你正在引入了非确定性行为体–它们永不休眠,不遵循可预测的路径,且能在数秒内穿梭于您的基础设施之中。而在大多数环境中,我们却将它们接入到那个我们原本就难以管理的相同模型中–那里充斥着静态凭证、碎片化的身份、权限范围过广,且几乎无法实时掌握它们的实际行为。”

Kontsevoy认为,身份蔓延被误诊为一个扩展性问题。根本问题在于控制,具体来说,是缺乏作为基础设施中一致控制平面的身份机制。

“这就是身份蔓延从‘日后可清理’转变为‘完全无法控制’的转折点,”他表示,“如果你无法实时回答:某个身份是什么、如何验证以及正在做什么,你就已经失去了控制。”

  1. 构建模块已经存在,但缺乏一致的应用。

人类身份管理历经数十年发展,催生了SAML和OAuth等标准,这些标准如今广泛支撑着企业认证体系。而非人类身份管理却缺乏这种一致性,原因并非技术基础缺失,而是应用不一样。

与可验证身份绑定的短效加密凭证,以及基于策略的强制执行机制,这些都已具备。问题在于,每个平台、每个云服务提供商以及每款工具的实现方式各不相同,这导致了与人类身份管理中积累的碎片化问题如出一辙,只是规模更大、速度更快。

“真正的技术栈应该要简单得多,”Kontsevoy 说道。“其核心在于需要一个统一的身份层,将每个参与者–无论是人类、机器还是 AI 智能体–都视为第一类身份。每个非人类身份都应与可验证的实体紧密关联,无论是工作负载、设备还是代理。访问权限应具有短暂性,需持续验证,并严格限制在该身份根据政策被授权的范围内,绝不逾越。”

Kontsevoy 指出该架构在技术上可行,并表示 Teleport 已将其付诸实施。更广泛的障碍在于观念层面:大多数组织仍将身份视为基础设施建成后附加的元素,而非基础设施本身。

  1. 监管机构正将新行为套用在旧的问责模型上

包括金融、医疗保健和关键基础设施在内的受监管行业,正在以监管框架无法跟上的速度部署代理型人工智能。现有的问责模型假设人类最终对任何决策负责,且决策可追溯至一条线性的审批链。

自主系统打破了这一假设。它们能够采取行动、串联决策,并产生事后难以解释的结果。可能不存在单一的决策点,在某些情况下甚至完全没有直接的人类参与者。

“监管机构开始意识到这一点,但还处于早期阶段,”Kontsevoy 表示。“当前的大多数框架侧重于治理、风险分类和文档记录。这些固然必要,但无法解决核心问题–即运营问责制。”

他表示,在代理系统环境中,运营问责制最终将取决于对身份及其管理政策的控制。那些能够实时证明每项操作都与经过验证的身份相关联、且该身份是在强制执行的政策下运行的组织,相比仅能出示政策文档的组织,将更有能力满足监管审查的要求。

  1. CISO的三步行动与一项需摒弃的习惯

针对开始处理非人类身份的安全负责人,Kontsevoy概述了一系列三项行动。

第一步是将身份确立为贯穿整个基础设施的控制平面。“不是彻底推倒重来,”他说,“而是让身份成为基础设施的控制平面。“每个用户、机器、工作负载和 AI 代理都应作为同一系统内的一等实体运行。”

第二点是淘汰静态、长期有效的凭证。“静态密钥、共享密钥、任何长期闲置待用的凭据 — 一旦引入持续运行的智能体,这种模式就不再适用。所有凭证都应短期有效、按需签发、动态生成,并与可加密验证的身份进行绑定。”

第三步是利用前两个步骤获得的可见性,持续对环境进行安全加固。如果无法完整掌握所有身份信息(包括服务账号、工作负载和令牌),安全团队在做出访问决策时就会缺乏充分依据。

关于需要杜绝的行为:“不要再把新建服务账号当作捷径。不要再将凭证硬编码到脚本和工作流中。不要再想当然地认为‘内部系统’就一定安全。这些习惯本身就已存在风险,而在 AI 的加持下,风险会以极难挽回的方式成倍放大。”

  1. 模型安全讨论忽视了更核心的问题

公众关于 AI 风险的大量讨论,都集中在模型行为本身:幻觉、对齐、输出质量等。Kontsevoy表示,企业部署中更具实质性的风险,存在于身份与授权层面,而非模型本身。

“如果模型给出错误答案,通常是可以补救的,” 他说,“但如果一个权限配置不当的智能体执行了错误操作,才会造成真正严重的后果。身份体系,决定了一次失误是否会演变成安全事件。”

他将企业所担忧的诸多 AI 风险,描述为以新形式出现的传统安全问题。身份碎片化、静态凭证、权限过度泛化并非新问题。区别在于,AI 系统能够以机器速度、不间断地行使这些访问权限。

“问题不只是模型是否安全,更关键的是:其背后的身份是否经过持续验证,并受到策略的严格约束。”

在大多数企业环境中,AI 智能体接入现有系统时往往被授予宽泛权限,因为部署速度优先于访问规范化。这种做法会直接继承环境中已存在的所有身份碎片化与凭证风险。“把身份体系做对,就能降低绝大多数真实风险,” Kontsevoy说,“如果做不对,AI 只会把原本就存在的所有弱点无限放大。”

https://www.helpnetsecurity.com/2026/03/24/ai-agent-identity-security-systems/

(完)


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全行者老霍 HelpNetSecurity

 HelpNetSecurity《AI智能体能否逃离沙箱?》

小讯
上一篇 2026-04-10 23:31
下一篇 2026-04-10 23:29

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/254841.html