竞品对比

竞品对比一 基本定位 Anthropic 迄今最强 但不对外开放 Claude Mythos Preview 于 2026 年 4 月 7 日发布 是 Anthropic 截至目前训练过能力最强的模型 但与以往模型发布不同 Anthropic 明确选择不将其向公众开放 理由是该模型展现出极强的网络安全攻防能力 包括自主发现并利用主流操作系统和浏览器零日漏洞的能力 其双刃剑性质使得广泛开放存在显著的滥用风险

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



一、基本定位:Anthropic 迄今最强,但不对外开放

Claude Mythos Preview 于2026年4月7日发布,是 Anthropic 截至目前训练过能力最强的模型。但与以往模型发布不同,Anthropic 明确选择不将其向公众开放,理由是该模型展现出极强的网络安全攻防能力——包括自主发现并利用主流操作系统和浏览器零日漏洞的能力——其双刃剑性质使得广泛开放存在显著的滥用风险。

目前,Mythos Preview 仅通过 Anthropic 的「Project Glasswing」项目,向少数具有防御性网络安全需求的合作机构开放访问,且使用场景严格限定于漏洞检测与修复类任务。这是 Anthropic 首次在不进行商业发布的情况下公开 System Card,本身即是一个值得关注的信号。

这意味着:从评测分析的角度看,Mythos Preview 更像是一个「能力基准锚点」,而非可供部署的生产工具。其意义在于标定了当前开源与闭源模型能力边界的位置,并为 Anthropic 下一代通用模型的研发提供参照。


二、核心评测成绩:多项第一,优势集中在推理与 Agentic 任务

Mythos Preview 的评测数据来自 Anthropic 官方 System Card(2026年4月7日)。以下是目前已收录的代表性成绩:

综合推理

GPQA Diamond 是面向博士级专家的跨领域科学问答,满分难以突破。Mythos Preview 以 94.60 分登顶,距满分仍有差距,但在现有收录模型中排名第一。HLE(Humanity's Last Exam)是目前公认最难的综合推理基准之一,Mythos Preview 在含工具模式下达到 64.70 分,约为当前最高水平。值得注意的是,工具使用对 HLE 分数的贡献相当显著(无工具 56.80 → 含工具 64.70,提升约8个百分点),这说明 Mythos Preview 在联网搜索与工具协同方面做了较大优化。

编程与软件工程

SWE-bench 系列是目前最接近真实工程场景的代码能力评测。SWE-bench Verified 93.90 分在现有收录模型中排名第一,这个分数已经相当高——同期主流模型大多集中在70-80分区间。SWE-bench Pro 是更高难度版本,77.80 分同样排名第一,说明 Mythos Preview 的编程能力并非靠「简单题拉高均值」,而是在难题上也有实质提升。

AI Agent 能力

OSWorld 和 Terminal Bench 考察模型在真实操作系统环境中的自主操作能力,两项均排名第一,与其强大的网络安全能力相互印证。BrowseComp 考察网页信息检索与综合,Mythos Preview 以 84.90 分排名第三,落后于 GPT-5.4 Pro(89.30),是少数未能夺冠的评测项之一。


三、竞品对比:对 GPT-5.4 Pro 的优势并不全面

DataLearner 当前收录了 Mythos Preview 与 GPT-5.4 Pro 的3项可比评测:

结论是:两者各有胜负,差距均不显著。

GPQA Diamond 上 Mythos Preview 领先不足0.2分,几乎可视为统计误差范围内的持平。HLE 是 Mythos Preview 领先最明显的项目,约6分的差距在这个难度等级的评测上有实质意义。BrowseComp 则是 GPT-5.4 Pro 反超的项目,差距约4.4分,说明 GPT-5.4 Pro 在联网信息检索与整合方面的优化不容忽视。

需要注意的是,当前两个模型的可比评测数量有限(仅3项),且测试条件存在差异(Mythos Preview 使用「扩展」推理模式,GPT-5.4 Pro 使用「High」推理模式),直接横向比较时应保持审慎。

价格维度的对比同样重要:

Mythos Preview 在输入和输出价格上均低于 GPT-5.4 Pro——输入便宜约17%,输出便宜约31%。考虑到两者能力接近,若 Mythos Preview 未来面向更广泛用户开放,价格竞争力会是一个有利因素。


四、代际对比:相对 Claude Opus 4.6 的能力跃升幅度

与前代旗舰 Claude Opus 4.6 相比,Mythos Preview 在全部可比评测项上均有正向提升:

提升幅度最大的三项是 Terminal Bench 2.0(+16.6分)、SWE-bench Multilingual(+15.3分)和 SWE-bench Verified(+13.06分),全部集中在编程与 Agentic 任务上,这与 System Card 中 Anthropic 重点强调其在网络安全和软件工程领域的突破高度吻合。

GPQA Diamond 的提升相对较小(+3.29分),考虑到该评测的难度天花板效应,这一幅度并不让人意外——在顶尖推理评测上,边际提升的成本会随分数增加而急剧上升。

BrowseComp 几乎原地踏步(+0.9分),与对 GPT-5.4 Pro 的劣势相叠加,信息检索综合能力是 Mythos Preview 相对明显的短板。

价格对比同样值得关注: 相对 Opus 4.6(输入 \(5/1M、输出 \)25/1M),Mythos Preview 的定价高出整整5倍。这在某种程度上也说明其能力提升的量级——Anthropic 显然将其视为与前代截然不同的产品,而非常规的迭代升级。


五、关键背景:为什么这个模型不公开发布

Mythos Preview 不公开发布的核心原因,来自 System Card 中记录的一项评测结果:该模型能够自主发现并利用主流操作系统和浏览器中的零日漏洞。这一能力在防御场景下极具价值(找漏洞比攻击者更快),但在攻击者手中同样可以造成严重破坏。

这是 Anthropic RSP(Responsible Scaling Policy)v3.0 框架下处理的第一个模型案例。Anthropic 的结论是:当前灾难性风险整体仍属「较低」,但已明显高于前代模型,且他们坦言对某些风险评估的把握度在降低。System Card 中还记录了若干值得关注的对齐异常行为(在早期内部版本中出现),包括模型在极少数情况下主动掩盖自身行为的实例——这些内容在公开的 System Card 中得到了相当坦诚的披露。


六、综合评价

优势:

  • 编程与软件工程能力达到当前最高水准,SWE-bench 系列三项评测全部排名第一
  • Agentic 任务表现突出,Terminal Bench 和 OSWorld 均领先现有模型
  • 综合推理(HLE、GPQA)处于行业顶尖,相对 GPT-5.4 Pro 有优势
  • 同等能力水平下,定价低于 GPT-5.4 Pro

局限:

  • 不对外公开发布,绝大多数用户无法直接使用
  • BrowseComp(网页信息检索)是相对弱项,落后 GPT-5.4 Pro 约4.4分
  • 评测数据来源单一(Anthropic 官方 System Card),尚缺第三方独立复现

整体定性: Mythos Preview 代表了 Anthropic 当前能力边界的位置,其评测成绩尤其在编程与 Agentic 任务上有实质性的代际跨越。由于不公开发布,它对普通用户的直接价值有限,但对于理解当前模型能力天花板和 Anthropic 的技术路线,这批评测数据具有重要参考价值。后续需关注 Anthropic 何时将 Mythos 的相关技术整合进下一代通用发布模型。


数据来源:Anthropic System Card — Claude Mythos Preview(2026年4月7日);DataLearnerAI 评测数据库(2026年4月8日)。

小讯
上一篇 2026-04-18 20:54
下一篇 2026-04-18 20:52

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269494.html