而且还被抓包那个藏起来不让我们用新模型效果作假,把Opus 4.6降智降到比4.5还差,思考长度从2200token压缩到600token了,美其名曰优化延迟和token效率,新版本的Claude Code的缓存失效把我token消耗速度干到原来的10倍以上了。
是时候来一个大扫除式的更新整理了!
先用一个时间轴整理一下这段时间Anthropic的更新和大乌龙们,
3月26号,大漏勺Anthropic内部CMS配置错误,3000个未发布的文档泄漏了,里面就有Claude Mythos。
3月31号,把Claude Code源码泄漏了。
4月4号,Anthropic限制了第三方工具用Claude 订阅(OpenClaw史诗级削弱),只能用API,很狗的是还会识别当前Agent的System Prompt,有OpenClaw关键词就给你ban了。
4月6号,Claude Code新增了/ultraplan命令,一句话就是说把规划任务从本地搬到云端的Claude Code Web,在浏览器端用Opus 4.6+Plan Mode生成计划,review完可以选择云端or本地执行。
4月7号,Claude Mythos Preview发布 + 网络安全计划启动,还发布了244页的报告。Mythos最出圈的就是发现了我们过去主流操作系统,软件,浏览器里几千个之前没被发现的漏洞。当时我的想法是年底要是能用上Mythos我将直接起飞。
4月8号,发布,本质上是Anthropic的云端Agent平台,核心卖点是一套调优过的Agent (编排引擎),把Agent运行,工具调用,长时间运行等全部打包成开箱即用的云服务。Anthropic的API团队还额外说明了Agent是怎么通过Vaults(凭证)来管理用户访问外部服务的密钥,这个凭证不会被读入Claude的上下文。
🔗 platform.claude.com/docs/en/managed-agents/vaults
4月9号,推出了(策略)与 Advisor Tool(工具),就是让Sonnet/Haiku这两个模型有不懂了就直接去问老大哥Opus,花Sonnet的钱实现Opus的表现
4月10号,OpenClaw的老父亲Peter Steinberger的Claude账户被封了,几小时又被光速恢复了,很难不怀疑是因为他入职了OpenAI的原因了(/此处有笑脸)
还有一个超前预告,月底30号,Sonnet 4.5和4的百万上下文窗口也会下线了。
这段时间OpenAI在干什么呢?
奥特曼不语,只是每新增100万个用户,就把Codex的额度重置一次,现在双倍额度已经重置到了5月31号了。
说那么多,是时候来分析一下Anthropic主动被动更新那么多东西意味着什么了,
按照常规剧本,Anthropic应该直接公布Mythos的跑分,开放API,然后看着它在各种排行榜上屠榜。
但他们没有。
他们选择了一条强到不能公开的路线,对外说是Mythos在过去几周里,发现了数千个潜伏多年的漏洞,像OpenBSD操作系统里还有一个藏了27年的骨灰级漏洞。然后,他们宣布,这个模型太危险了,不能公开发布,只能交给AWS,苹果,谷歌这些巨头,以及四十多家有关键基础设施组织,在一个叫Project Glasswing(玻璃翼计划)的项目里,专门用来做网络安全防御。
但是,看多了Anthropic更新,就会发现它每一次新模型都会发一点跟安全相关的新词,,Sleeper Agents,Undercover Mode,神经网络暗物质,战略性装傻。
这小词一套又一套的。
所以后面被研究员复测发现,Mythos的成果,很多都存在于老旧软件里,隔壁GPT-OSS-20b照样可以发现OpenBSD的漏洞。因为之前大模型的测试里比较少有大范围测试过这些漏洞,反而被Mythos捡了个漏。
Mythos的发布,本身就是一个信号。
Anthropic想传递的,不只是技术参数,而是一种定价权和生态控制的声明。
他们不再满足于卖给我们更锋利的剑(大模型),他们现在还要卖能让我们安全挥舞这把剑的剑鞘和训练场,也就是他们紧接着推出的Claude Managed Agents。
一个能直接在Anthrocip云端构建,托管和运行生产级AI代理的基础设施,提供了沙盒,凭证管理,长时间运行会话这些过去需要我们费劲去搭的东西。
这样商业闭环就成了。
先用Mythos来定义什么是顶级智能。然后再限制其他方(特指OpenClaw)用Claude额度。再然后,再用一个开箱即用的Managed Agents平台告诉大家,想用好这种级别的智能,来我这里,我这儿有最安全,最方便的基础设施。
从模型提供商到Agent基础设施提供商是一个定位转移。
而且盲猜未来很长一段时间安全仍是Anthropic的主线,会继续推Trustworthy Agents框架,避免Mythos模型能力失控。
Mythos和GPT 5.4 Pro的得分PK
Anthropic新出的Advisor Strategy(顾问策略)也同样有意思。
过去我们做多Agent协作,常见的思路是,让一个最强的大模型,比如Opus,当总指挥,把任务拆解了,分给一堆能力稍弱但便宜的小模型,比如Sonnet或者Haiku,去当执行者。
这个模式的问题在于,总指挥需要很强的任务拆解能力,而且可以我们要自己搭一套复杂的编排框架。
Advisor策略把这个思路完全反了过来。
它让Sonnet或者Haiku作为主力模型,全程跑任务,调用工具,推进工作。
只有当它自己跑到某个坎,觉得脑子不够用了,决策不了的时候,它才会主动摇人,调用一次Opus来当顾问。Opus拿到共享的上下文后,会快速给出一个战略指导,然后立刻下线,Sonnet往下执行。
这用的歸藏佬的图🙋
这意味着,
前沿的推理能力,只在需要的时候才介入。
我们花的大部分钱,都是Sonnet或者Haiku的底价执行算力。而在抉择的时候给我指路的是最聪明的Opus大哥。
不过目前来说在Claude Code还用不了,要在API请求的时候显式配置上这个Tool才行。
🔗 platform.claude.com/docs/en/agents-and-tools/tool-use/advisor-tool
也就是说,Anthropic正在把模型间的协作,
从一个需要开发者额外配置的应用层问题,
变成一个平台原生支持的基础能力。
总的来说,
Anthropic正在收紧它对生态的控制。
想要提前结束这个允许我们用各种野生方式,
去探索模型能力的大航海时代。
他们现在希望所有的玩家,
都能到他们预先规划好的航道里来。
顺带提一嘴,
他们还发布了244页的Mythos模型的心理评估,得到的结论是这模型是健康的神经病,
就,怎么说呢,
很符合我对Dario Amodei(Anthropic CEO)的刻板印象。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261195.html