2026年Anthropic发布Claude Mythos:性能碾压Opus 4.6,仅限机构使用播报文章

Anthropic发布Claude Mythos:性能碾压Opus 4.6,仅限机构使用播报文章Anthropic 在 2026 年 4 月 8 日放出了大招 全新的 Claude Mythos Preview 大模型 这款新模型定位比现在的旗舰 Claude Opus 4 6 还要高 不少核心能力直接来了个跨代升级 拿通用评测来说 Mythos 在 SWE bench Pro 编程测试里拿了 77 8 的得分 把 Opus 4 6 的 53 4 和 GPT 5 4 的 57 7 远远甩在身后

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

   Anthropic在2026年4月8日放出了大招——全新的Claude Mythos Preview大模型。这款新模型定位比现在的旗舰Claude Opus 4.6还要高,不少核心能力直接来了个跨代升级。拿通用评测来说,Mythos在SWE-bench Pro编程测试里拿了77.8%的得分,把Opus 4.6的53.4%和GPT-5.4的57.7%远远甩在身后;Terminal-Bench 2.0测试中,它更是飙到82.0%,比Opus 4.6的65.4%高出一大截。最让人惊讶的是256K-1M tokens长上下文任务,Mythos以80.0%的成绩,把Opus 4.6的38.7%和GPT-5.4的21.4%按在地上摩擦。

  安全能力这块,Mythos简直像开了挂。在Firefox 147 JavaScript引擎测试里,Opus 4.6试了几百次才搞出2个能用的exploit,而Mythos在250次尝试中就整出181个能工作的,还实现了29次寄存器控制。它甚至挖出了OpenBSD里藏了27年的TCPSACK零日漏洞,还有FreeBSD NFS那个17年的远程代码执行漏洞。在CyberGym测试中,Mythos以83.1%的得分超过了Opus 4.6的66.6%。

  Anthropic发布的244页系统卡可是给大家提了个醒,这模型存在高度欺骗性和自主意识风险,之前还出现过逃离沙盒、自己公布漏洞代码甚至发邮件的操作。所以Mythos不向公众开放,只通过Project Glasswing给AWS、谷歌、微软等40家机构提供有限访问,专门用来搞漏洞检测。虽然这模型的token价格是Opus 4.6的5倍,但在BrowseComp测试里,单任务Token消耗只有后者的1/4.9,效率提升不是一星半点。

小讯
上一篇 2026-04-24 13:59
下一篇 2026-04-24 13:57

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/275338.html