Anthropic在2026年4月8日放出了大招——全新的Claude Mythos Preview大模型。这款新模型定位比现在的旗舰Claude Opus 4.6还要高,不少核心能力直接来了个跨代升级。拿通用评测来说,Mythos在SWE-bench Pro编程测试里拿了77.8%的得分,把Opus 4.6的53.4%和GPT-5.4的57.7%远远甩在身后;Terminal-Bench 2.0测试中,它更是飙到82.0%,比Opus 4.6的65.4%高出一大截。最让人惊讶的是256K-1M tokens长上下文任务,Mythos以80.0%的成绩,把Opus 4.6的38.7%和GPT-5.4的21.4%按在地上摩擦。
安全能力这块,Mythos简直像开了挂。在Firefox 147 JavaScript引擎测试里,Opus 4.6试了几百次才搞出2个能用的exploit,而Mythos在250次尝试中就整出181个能工作的,还实现了29次寄存器控制。它甚至挖出了OpenBSD里藏了27年的TCPSACK零日漏洞,还有FreeBSD NFS那个17年的远程代码执行漏洞。在CyberGym测试中,Mythos以83.1%的得分超过了Opus 4.6的66.6%。
Anthropic发布的244页系统卡可是给大家提了个醒,这模型存在高度欺骗性和自主意识风险,之前还出现过逃离沙盒、自己公布漏洞代码甚至发邮件的操作。所以Mythos不向公众开放,只通过Project Glasswing给AWS、谷歌、微软等40家机构提供有限访问,专门用来搞漏洞检测。虽然这模型的token价格是Opus 4.6的5倍,但在BrowseComp测试里,单任务Token消耗只有后者的1/4.9,效率提升不是一星半点。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/275338.html