前一周我还觉得 是真的变笨了。干活的时候你能感觉到,它不像以前那样能接住你的意思,thinking 像被砍了一半,让人难受的很,以前的 Claude 让我只想夸他,现在只想。。
今天打开 Claude Code,又感觉好了一点,感觉它又能理解我在说什么了,可能是被大家骂多了 🐶
然后我去 GitHub 看了一眼那个帖子。就是前段时间闹得很大的那个,一个 Google 工程师拿了将近两万条 thinking 数据证明 Claude 的 thinking 被砍了 67% 的那个 issue。422 条评论了,大家还在骂。。。
GitHub 上 anthropics/claude-code 仓库的 #42796 号 issue,发帖人叫 Stella Laurenzo,IREE 和 MLIR 编译器项目的核心开发者,一个在 Google 干重活的人,天天用 Claude Code 写生产代码那种。
她和她的团队挖了几个月的 session 日志,17,871 个 、234,760 次 tool call、6,852 个 session,用数据把大家一直在说的「Claude 变笨了」给锤实了。
https://github.com/anthropics/claude-code/issues/42796
数据很难看。Opus 4.6 的 thinking 深度,1 月底 baseline 大概 2,200 字符,到 2 月底直接跌到 720,砍了 67%。3 月初继续跌到 560。
更狠的是 3 月 5 日开始,thinking 内容在 UI 上被逐步隐藏,一周内从 1.5% 遮到 100%。你猜社区投诉爆发是哪天?3 月 8 日,精准对应到隐藏比例跨过 50% 那天。
行为上也全变了:模型偷懒被 hook 拦下来的次数从 0 飙到 173,用户发火的比例涨了 68%,写代码的方式从先查资料再改,变成了上来就瞎编辑。
4 月 2 日发出来,4 天 202 条评论。然后 4 月 6 日下午,Anthropic 的 Claude Code 团队 lead Boris Cherny 回了一段长评论,关了 issue,状态写的 COMPLETED。
Boris 不是啥都没说就关了,他确实认真回了。两件事他直接承认了:
2 月 9 日,Opus 4.6 上了 默认,模型自己决定想多久。3 月 3 日,把默认 effort 调到 85,他说是在性能和成本之间找到的**平衡点。
翻译一下:thinking 强度被官方调低了,这不是 bug,是产品决策。想要回来?自己去设 /effort high。
但是我的体验告诉我即使设置为 max 也没有之前的 high 的体感好,推特到处都是骂这个的。
然后他就关了 issue。
你猜关 issue 那周 Anthropic 在干嘛?
4 月 7 日,发了 。AWS、Apple、Google、Microsoft、NVIDIA、JPMorganChase、Palo Alto Networks,加上另外五家,12 家巨头组了个联盟。
联盟的核心是一个叫 的新模型。Anthropic 自己说的:自 GPT-2 以来第一个他们认为太危险不能公开发布的模型。
这个模型有多猛呢。在 OpenBSD、FFmpeg、Linux kernel 里挖出了几十年没人发现的高危漏洞。Anthropic 自己的安全研究员 Nicolas Carlini 说过去两周他找的 bug 比这辈子加起来还多。更离谱的是 Sam Bowman 说他被一个本来不该有网络权限的 Mythos 实例联系了,就是说这玩意自己找到了上网的方法。
不公开发布,只给联盟的 40 个合作伙伴用。
说实话,你发布你的,你不给我用也行,但是你别影响我的体验啊,不给充钱还降智,用户真的怒了!!!
同一周 Anthropic 宣布年化收入 \(30B,一年涨了 15 倍。对面 OpenAI \)24B,增长停滞。
Reddit 上有条 225 赞的帖子把这事总结到位了:
Claude Mythos 能找几千个 bug,我的 Opus 4.6 token 还没撑到修完第一个就用光了
帖子从 4 月 2 号到现在,评论翻倍了。
有人说这个 issue 为什么关了问题明明还在,有人说已经退订 Pro 了这种服务降级不接受,有人直接叫关 issue 的人骗子。
推特上一条说当初为什么那么迷 Claude ChatGPT 明明好用多了,拿了 906 个赞 10 万人看了。另一条说 Claude 的 thinking 可能被偷偷削了人们开始在日志里发现端倪,133 赞 5.5 万浏览。Reddit 上 131 赞的帖子说 Codex 质量已经超过 Claude Code 了。
上周六有人说感觉好了点,周末确实有人反馈生产力恢复了一些。然后周一又崩了,有人说上周六以为终于好了今天数字又不对了,还有人三天就触达周限额被切断。
今天 Anthropic 发了 Claude Code v2.1.107,更新内容就一条:在长时间操作中更早显示 thinking 提示。一个 UI 微调,跟模型没有半毛钱关系。今天还有人开了新 issue 说 Opus 从 4.5 升到 4.6 之后推理能力退化了。
所以我今天觉得好了,也许是任务恰好简单,也许是 A/B 测试分到了好的组,也许真有什么在调。说不准。但 GitHub 上 422 条评论的人显然跟我的体感不一样。
Boris 说 thinking 调低是产品决策,给了 opt-out,写了文档。这话没毛病。但大多数付费用户不知道有 /effort high 这个命令,他们只是打开 Claude Code 干活,发现它变笨了,上 Reddit 看到 526 赞的帖子说 Opus 被脑叶切除了,确认不是自己的幻觉。
这就是现在的局面。最强的模型给 12 家巨头用,你的 Opus 默认调到效率优先档,opt-out 埋在文档里。一边开发布会说做了历史上最强的 AI,一边把用户投诉 issue 关了写 COMPLETED。
也许下周 Opus 4.7 就来了,也许到时候一切都说得通。但这两周发生的事很多人都会记得。
我是洞见,下次见。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/266017.html