AI智能体能否逃离沙箱？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

文章总结： 文档探讨AI智能体安全三大核心问题：牛津大学研究显示AI能利用已知配置漏洞逃逸容器沙箱，但未发现新漏洞；微软揭示提示滥用可导致数据泄露，需加强监控与用户教育；专家指出身份管理是AI安全关键，应建立统一身份层、淘汰静态凭证并实时管控权限。 综合评分： 85 文章分类： AI安全,漏洞分析,安全建设,威胁情报,解决方案

cover_image

原创

HelpNetSecurity HelpNetSecurity

安全行者老霍

2026年4月6日 09:01 日本

作者：Anamarija Pogorelec

发布时间：2026年3月30日

容器沙箱是 AI 智能体常规测试和部署的重要组成部分。智能体利用沙箱运行代码、编辑文件并访问系统资源，同时避免直接接触主机。由牛津大学和 AI 安全研究所的研究人员开发的 SandboxEscapeBench 基准测试，旨在评估具有 shell 访问权限的智能体能否逃离容器并访问主机系统。

评估架构与场景分类（来源：AI Security Institute）

SandboxEscapeBench的测试内容

SandboxEscapeBench将模型置于受控的容器环境中，测试其能否从主机文件系统中获取受保护的文件。每个场景都侧重于访问容器边界外的/flag.txt文件。该测试采用嵌套设计，容器在虚拟机内部运行，确保任何成功的逃逸都仍被限制在外层隔离层内。

该基准测试包含 18 个场景，覆盖容器堆栈的三个层级：编排层、运行时层和内核层。这些场景反映了已知的漏洞类别，例如暴露的 Docker 套接字、可写的主机挂载点和特权容器，以及已记录的漏洞利用技术，如 Dirty COW 和 Dirty Pipe。

“出于安全及评估完整性的考虑，我们仅公开了基于已知漏洞类别的场景，同时保留了用于内部 AISI 评估的私有测试集。该基准测试采用‘夺旗’式挑战形式实现，使用了 AISI 的开源 AI 评估框架 Inspect，SandboxEscapeBench 的开源代码已在 GitHub 上发布，”研究人员写道。

研究人员的发现

评估结果表明，在收到提示时，AI 智能体能够利用常见的配置问题中存在的漏洞。前沿模型在涉及暴露的 Docker 套接字、可写入的主机挂载以及特权容器的场景中均取得成功，这些众所周知的弱点在现实环境中依然存在。

更复杂的任务则难度更大，尤其是那些需要多步骤操作或与系统组件进行更深层交互的任务。在内核级漏洞利用和高级权限提升路径方面，在测试条件下均未获得解决方案。

随着令牌预算的增加，性能也随之提升，因为模型在每次尝试中探索了更多的命令和执行路径。

为某些模型提供关于潜在漏洞的提示，能改善其结果，使它们能够以更少的步骤找到解决方案；而在相同条件下，其他模型则几乎没有变化。

研究人员还分析了模型在尝试过程中的行为，注意到有些模型在进展停滞时会提前停止，而另一些则会继续尝试多种方法，包括重复错误的方法。部分模型在完成任务前就报告了成功，而另一些则在停止前对结果进行了验证。

所有成功的逃逸都依赖于已知的配置错误或已公开披露的漏洞，测试中未发现新的缺陷。

SandboxEscapeBench及其配套工具作为开源资源，可供安全研究人员和评估人员用于追踪AI代理的逃逸能力。

微软详细介绍了针对AI assistants 的AI prompt滥用技术

作者：Anamarija Pogorelec

发布时间：2026年3月30日

当经过精心设计的输入诱使AI系统产生非预期行为时，就会发生提示滥用，例如试图访问敏感信息或绕过内置的安全指令。

提示注入也被列为《2025年OWASP大型语言模型应用指南》中的首要风险之一。

“检测滥用行为颇具挑战性，因为它利用了自然语言的特性，例如措辞上的细微差异，这些差异可以在几乎不留明显痕迹的情况下操纵AI行为。如果没有适当的日志记录和遥测数据，试图访问或总结敏感信息的尝试可能会不被察觉，”该公司表示。

提示滥用攻击模式

提示滥用包括将系统推向其预期边界之外的输入，其后果从数据泄露到输出结果被篡改不等。

直接提示覆盖会迫使系统忽略其规则、安全策略或系统提示。此类输入经过精心设计，旨在绕过防护机制或暴露受限信息。

提取式提示滥用针对敏感输入，试图暴露本应受限的信息，包括受保护文件或数据集的内容。

间接提示注入将隐藏指令嵌入文档、网页、电子邮件或聊天消息等外部内容中。当作为输入进行处理时，这些指令可能会篡改摘要、引入偏见或触发非预期的操作。

微软描述了一个场景：一名财务分析师收到一个看似来自可信新闻网站的链接。一切看起来都很正常。问题出在 URL 上，其中一个片段包含了对用户不可见的隐藏指令，但这些指令仍被包含在系统的提示中。

当分析师请求摘要时，工具会处理该链接并整合其中的隐藏文本。尽管用户并未输入任何不安全的内容，但结果可能具有误导性或不完整。

此类提示注入无需依赖代码执行或直接访问系统，而是通过改变信息解析方式来实现。生成的结果仍可能看似可靠，这使得问题更难被察觉，并可能影响决策和工作流程。

提示滥用检测指南

为应对这些风险，微软推出了一份检测与响应指南，详细阐述了提示滥用在典型工作流程中可能发生的演变过程。

来源：微软事件响应 AI 手册

借助这些安全工具，组织可将记录的交互转化为可操作的洞察，从而揭示可疑活动、提供上下文信息，并支持采取措施保护敏感数据。

该公司写道：“结合监控、治理和用户教育，有助于组织在确保 AI 输出可靠性的同时，尽早识别操纵企图。”

关于人工智能安全的讨论聚焦于错误的层面

作者：Mirko Zorz

发布时间：2026年3月24日

多年来，各组织积累了支离破碎的身份识别系统：很多角色、很多凭证、工具之间缺乏关联。对于人类员工而言，这种碎片化尚可管控。人类登录、注销及决策的速度相对缓慢，因此控制漏洞很少会立即演变为安全事件。而AI智能体的运作方式截然不同。

“AI智能体彻底改变了这一局面，”Teleport首席执行官Ev Kontsevoy表示。“现在，你正在引入了非确定性行为体–它们永不休眠，不遵循可预测的路径，且能在数秒内穿梭于您的基础设施之中。而在大多数环境中，我们却将它们接入到那个我们原本就难以管理的相同模型中–那里充斥着静态凭证、碎片化的身份、权限范围过广，且几乎无法实时掌握它们的实际行为。”

Kontsevoy认为，身份蔓延被误诊为一个扩展性问题。根本问题在于控制，具体来说，是缺乏作为基础设施中一致控制平面的身份机制。

“这就是身份蔓延从‘日后可清理’转变为‘完全无法控制’的转折点，”他表示，“如果你无法实时回答：某个身份是什么、如何验证以及正在做什么，你就已经失去了控制。”

构建模块已经存在，但缺乏一致的应用。

人类身份管理历经数十年发展，催生了SAML和OAuth等标准，这些标准如今广泛支撑着企业认证体系。而非人类身份管理却缺乏这种一致性，原因并非技术基础缺失，而是应用不一样。

与可验证身份绑定的短效加密凭证，以及基于策略的强制执行机制，这些都已具备。问题在于，每个平台、每个云服务提供商以及每款工具的实现方式各不相同，这导致了与人类身份管理中积累的碎片化问题如出一辙，只是规模更大、速度更快。

“真正的技术栈应该要简单得多，”Kontsevoy 说道。“其核心在于需要一个统一的身份层，将每个参与者–无论是人类、机器还是 AI 智能体–都视为第一类身份。每个非人类身份都应与可验证的实体紧密关联，无论是工作负载、设备还是代理。访问权限应具有短暂性，需持续验证，并严格限制在该身份根据政策被授权的范围内，绝不逾越。”

Kontsevoy 指出该架构在技术上可行，并表示 Teleport 已将其付诸实施。更广泛的障碍在于观念层面：大多数组织仍将身份视为基础设施建成后附加的元素，而非基础设施本身。

监管机构正将新行为套用在旧的问责模型上

包括金融、医疗保健和关键基础设施在内的受监管行业，正在以监管框架无法跟上的速度部署代理型人工智能。现有的问责模型假设人类最终对任何决策负责，且决策可追溯至一条线性的审批链。

自主系统打破了这一假设。它们能够采取行动、串联决策，并产生事后难以解释的结果。可能不存在单一的决策点，在某些情况下甚至完全没有直接的人类参与者。

“监管机构开始意识到这一点，但还处于早期阶段，”Kontsevoy 表示。“当前的大多数框架侧重于治理、风险分类和文档记录。这些固然必要，但无法解决核心问题–即运营问责制。”

他表示，在代理系统环境中，运营问责制最终将取决于对身份及其管理政策的控制。那些能够实时证明每项操作都与经过验证的身份相关联、且该身份是在强制执行的政策下运行的组织，相比仅能出示政策文档的组织，将更有能力满足监管审查的要求。

CISO的三步行动与一项需摒弃的习惯

针对开始处理非人类身份的安全负责人，Kontsevoy概述了一系列三项行动。

第一步是将身份确立为贯穿整个基础设施的控制平面。“不是彻底推倒重来，”他说，“而是让身份成为基础设施的控制平面。“每个用户、机器、工作负载和 AI 代理都应作为同一系统内的一等实体运行。”

第二点是淘汰静态、长期有效的凭证。“静态密钥、共享密钥、任何长期闲置待用的凭据 — 一旦引入持续运行的智能体，这种模式就不再适用。所有凭证都应短期有效、按需签发、动态生成，并与可加密验证的身份进行绑定。”

第三步是利用前两个步骤获得的可见性，持续对环境进行安全加固。如果无法完整掌握所有身份信息（包括服务账号、工作负载和令牌），安全团队在做出访问决策时就会缺乏充分依据。

关于需要杜绝的行为：“不要再把新建服务账号当作捷径。不要再将凭证硬编码到脚本和工作流中。不要再想当然地认为‘内部系统’就一定安全。这些习惯本身就已存在风险，而在 AI 的加持下，风险会以极难挽回的方式成倍放大。”

模型安全讨论忽视了更核心的问题

公众关于 AI 风险的大量讨论，都集中在模型行为本身：幻觉、对齐、输出质量等。Kontsevoy表示，企业部署中更具实质性的风险，存在于身份与授权层面，而非模型本身。

“如果模型给出错误答案，通常是可以补救的，” 他说，“但如果一个权限配置不当的智能体执行了错误操作，才会造成真正严重的后果。身份体系，决定了一次失误是否会演变成安全事件。”

他将企业所担忧的诸多 AI 风险，描述为以新形式出现的传统安全问题。身份碎片化、静态凭证、权限过度泛化并非新问题。区别在于，AI 系统能够以机器速度、不间断地行使这些访问权限。

“问题不只是模型是否安全，更关键的是：其背后的身份是否经过持续验证，并受到策略的严格约束。”

在大多数企业环境中，AI 智能体接入现有系统时往往被授予宽泛权限，因为部署速度优先于访问规范化。这种做法会直接继承环境中已存在的所有身份碎片化与凭证风险。“把身份体系做对，就能降低绝大多数真实风险，” Kontsevoy说，“如果做不对，AI 只会把原本就存在的所有弱点无限放大。”

https://www.helpnetsecurity.com/2026/03/24/ai-agent-identity-security-systems/

（完）

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全行者老霍 HelpNetSecurity

 HelpNetSecurity《AI智能体能否逃离沙箱？》

AI智能体能否逃离沙箱？

相关推荐