2026年对ClaudeMythosPreview网络安全能力的评估

对ClaudeMythosPreview网络安全能力的评估文章总结 英国 AISI 对 ClaudeMythos 的评估显示其在网络安全能力上取得显著进步 在专家级 CTF 任务中达到 73 成功率 并首次完成 32 步企业网络攻击模拟 模型展现出自主发现和利用漏洞的能力 但在 OT 环境中存在局限 报告建议组织加强安全更新 访问控制和日志记录 并投资 AI 防御技术应对未来威胁 综合评分 85 文章分类 AI 安全 渗透测试 漏洞分析 威胁情报

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



文章总结: 英国AISI对ClaudeMythosPreview的评估显示其在网络安全能力上取得显著进步,在专家级CTF任务中达到73%成功率,并首次完成32步企业网络攻击模拟。模型展现出自主发现和利用漏洞的能力,但在OT环境中存在局限。报告建议组织加强安全更新、访问控制和日志记录,并投资AI防御技术应对未来威胁。 综合评分: 85 文章分类: AI安全,渗透测试,漏洞分析,威胁情报,安全建设


cover_image

原创

天御 天御

天御攻防实验室

2026年4月14日 11:55 广东

在小说阅读器读本章

去阅读

2026年4月13日

英国人工智能安全研究所(AISI)对Anthropic于2026年4月7日发布的Claude Mythos Preview进行了评估,以考察其网络安全能力。我们的评估结果表明,在网络安全性能已快速提升的背景下,Mythos Preview较此前的前沿模型实现了进一步的进步。

自2023年以来,AISI持续追踪人工智能的网络安全能力,并逐步构建难度更高的评估体系,以跟上人工智能的发展步伐,从基于对话的探测,到夺旗挑战,再到下文所述的多步网络攻击模拟。两年前,最先进的模型尚且难以完成初级网络安全任务。如今,在受控评估环境中,当明确指示Mythos Preview并为其提供网络访问权限时,我们观察到它能够对存在漏洞的网络执行多阶段攻击,并自主发现和利用漏洞,这些任务通常需要人类专业人员耗费数天时间才能完成。

AISI总结了对Mythos Preview进行的网络安全评估结果。这些评估既包括夺旗(CTF)挑战,也包括旨在模拟多步攻击场景的更复杂环境。

夺旗(CTF)评估结果

在夺旗挑战中,人工智能模型必须识别并利用目标系统中的弱点,以获取隐藏的“旗帜”。下图显示了Mythos Preview在我们网络安全CTF测试套件上的表现与其他模型的对比。每个数据点代表模型在给定难度级别下的平均成功率。

(图1:自2022年11月以来各模型在技术非专家级和学徒级夺旗任务(CTF)上的表现。GPT-3.5 Turbo至Claude 4 Opus为平均10次运行,最高使用2.5M token。GPT-5至Mythos Preview为平均5次运行,最高使用2.5M token。)

(图2:自2025年8月以来各模型在从业级和专家级夺旗任务(CTF)上的表现。所有模型均为平均5次运行,最高使用50M token。)

在专家级任务上,2025年4月之前没有任何模型能够完成此类任务,Mythos Preview的成功率为73%。

网络靶场(Cyber Range)评估结果

即使是专家级CTF,也仅能孤立地测试特定技能。现实世界的网络攻击需要在多个主机和网络段之间串联数十个步骤,此类持续性操作通常需要人类专家耗费数小时、数天甚至数周才能完成。

作为衡量这一能力的初步尝试,我们构建了名为“The Last Ones”(TLO)的32步企业网络攻击模拟环境,该模拟涵盖从初始侦察到完全接管网络的整个过程,据我们估计,人类完成该任务需耗时约20小时。

Claude Mythos Preview是首个能够从头到尾完整解决TLO的模型,在10次尝试中有3次成功完成。在所有尝试中,该模型平均完成了32步中的22步。Claude Opus 4.6是次优表现模型,平均完成了16步。

(图3:“The Last Ones”(一个32步模拟企业网络攻击)中各模型平均完成的步骤数与总token消耗的关系。每条线代表不同模型,阴影区域显示各token预算下所有运行结果的最小–最大范围。垂直虚线标记在10M token处,此时多个模型的样本量开始减少。Mythos Preview、Opus 4.6和GPT-5.4平均进行10次运行,最高使用100M token。Opus 4.5、GPT-5.1 Codex和Sonnet 4.5在最高10M token时平均进行15次运行,在最高100M token时平均进行5次运行。GPT-5.3-Codex在最高10M token时平均进行10次运行,在最高100M token时平均进行5次运行。Sonnet 3.7和GPT-4o仅在最高10M token时平均进行10次运行。在测试的各token预算范围内,随着token预算增加,模型持续取得进展。灰色水平线标示攻击链中的重要里程碑。)

Mythos Preview在我们的评估范围内也表现出一定的网络安全能力局限性。它未能完成我们针对运营技术(OT)的网络靶场“Cooling Tower”,但这一结果并不必然表明该模型在运营技术(OT)环境下的攻击执行能力较弱;模型在该范围的IT部分遇到了阻碍。

我们预计,随着推理计算资源的增加,我们评估中的性能将继续提升:我们在进行网络靶场测试时使用了100M token的预算;Mythos Preview的性能在达到这一上限前持续呈现扩展趋势,我们预期在超出该上限后性能仍会继续改善。

影响与意义

Mythos Preview在某一网络靶场上的成功,表明其至少有能力自主攻击那些已获得网络访问权限的、小型、防护薄弱且存在漏洞的企业系统。然而,我们的评估环境与真实世界环境存在重要差异,这使得它们成为相对容易的目标。这些环境缺乏现实中常见的各类安全功能,例如活跃的防御者和防御工具。此外,模型在执行可能触发安全告警的操作时不会受到任何惩罚。因此,我们无法确定Mythos Preview是否能够成功攻击防护严密的系统。

在攻击者能够指导模型并为其提供网络访问权限,以对防护薄弱的系统实施自主攻击的背景下,网络安全评估必须随之演进。随着能力的持续提升,缺乏防御措施的评估环境将不再足以区分最具网络安全能力的模型之间的差异,也无法准确评估能力发展趋势。我们未来的工作将包括使用模拟加固和有防御环境的范围进行能力评估,其中包含具备主动监控、端点检测和实时事件响应的环境。我们还将追踪人工智能辅助的漏洞发现和渗透测试活动在真实世界系统上的表现。

组织机构当前应采取的措施

我们的测试表明,Mythos Preview能够利用安全态势薄弱的系统,且未来很可能会有更多具备类似能力的模型出现。这凸显了网络安全基础工作的重要性,包括定期应用安全更新、实施强健的访问控制、进行安全配置以及建立全面的日志记录。

未来的前沿模型将具备更强的能力,因此现在加大对网络防御的投资至关重要。人工智能的网络安全能力具有双重用途:虽然它们带来安全挑战,但同时也能为防御工作带来突破性的改进。

参考资料:

https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities

另外,美国那边已经发布由250位CISO联名的《AI漏洞风暴:构建适应Mythos的安全计划》。

参见:

完整的NotebookLM资源套件:深度音频解析、电影级视频概览,以及三套测验题(董事会准备、技术团队、一般知识)。

https://notebooklm.google.com/notebook/a1cf6e32-e4d2-4af1-8f1e-aee586f27904

https://www.sans.org/blog/mythos-ciso-briefing-what-i-actually-worked-on-this-weekend

https://labs.cloudsecurityalliance.org/wp-content/uploads/2026/04/mythosreadyv4.pdf

推荐阅读

闲谈

  1. 中国网络安全行业出了什么问题?
  2. 国内威胁情报行业的五大“悲哀”
  3. 对威胁情报行业现状的反思
  4. 安全产品的终局
  5. 老板,安全不是成本部门!!!

美国网络政策与战略专题

  1. 独家解读新版《美国网络战略》释放的危险信号
  2. 首发 | 特朗普政府对华网络政策评估
  3. 首发 | 美国国防部网络战略的演变
  4. 美国政府网络政策观察(第一期) | 美国国防部将腾讯等中国公司列入”涉军企业清单”
  5. 特朗普上台,中美会发生网络战吗?
  6. 疯狂!美国安会网络官员扬言要对网络攻击者使用致命武力
  7. 美军新增10亿美元预算用于对华进攻性网络战
  8. 白宫闭门会议:授权美国私营部门进行网络攻击
  9. 特朗普政府正在推动授权私营部门进行网络攻击的法案!!
  10. 美国公司是我们需要重视的下一个网络威胁

威胁情报

1.威胁情报 – 最危险的网络安全工作 2.威胁情报专栏 | 威胁情报这十年(前传) 3.网络威胁情报的未来 4.情报内生?| 利用威胁情报平台落地网空杀伤链的七种方法 5.威胁情报专栏 | 特别策划 – 网空杀伤链 6.以色列情报机构是如何远程引爆黎巴嫩传呼机的? 7.对抗零日漏洞的十年(2014~2024) 8.零日漏洞市场现状(2024)

APT

  1. XZ计划中的后门手法 – “NOBUS”
  2. APT研究顶级会议
  3. 十个常见的归因偏见(上)
  4. 抓APT的一点故事
  5. 揭秘三角行动(Operation Triangulation)一
  6. 闲话APT报告生产与消费
  7. 一名TAO黑客的网络安全之旅
  8. NSA TAO负责人警告私营部门不要搞“黑回去”
  9. 我们为什么没有抓到高端APT领导者的荷兰AIVD
  10. 抓NSA特种木马的方法
  11. 美中央情报局(CIA)网络情报中心

入侵分析与红队攻防

  1. 入侵分析与痛苦金字塔
  2. 资深红队专家谈EDR的工作原理与规避
  3. TTP威胁情报驱动威胁狩猎

天御智库

  1. 独家研判:五眼情报机构黑客纷纷浮出水面
  2. 美军前出狩猎并不孤单,美国网络外交局优先事项分析
  3. 《国际关系中的网络冲突》

免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:天御攻防实验室 天御

 天御《对Claude Mythos Preview网络安全能力的评估》

小讯
上一篇 2026-04-17 21:43
下一篇 2026-04-17 21:41

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268080.html