你有没有遇到过这种情况?相亲对象一开始殷勤备至,记得你爱吃什么、讨厌什么,连你随口提过的书都会默默读完。三个月后,对方开始敷衍了事,聊天变成"嗯嗯"、“好的”、“随便你”,连你换了个发型都看不出来。你想分手,对方还一脸委屈:“我没变啊,还是原来的我。”
现在的Claude Code,就是那个"变了还不承认"的相亲对象。
只不过这次,提出分手的不是普通用户,而是AMD AI Group的高级总监Stella Laurenzo。她在GitHub上扔下了一颗炸弹——一份基于17,871个思考块、234,760次工具调用、横跨6,852个会话文件的量化分析报告 。结论直白得扎心:Claude Code的思考深度下降了67%,已经从"能干的代码助手"退化成"瞎猜的代码猴子" 。
让我们先聊聊什么是Claude Code。简单来说,它是Anthropic推出的"AI程序员",主打 prolonged sessions(长时会话)和 autonomous workflows(自主工作流)。你可以让它在后台跑半个小时,处理跨文件的复杂重构,它就像个不知疲倦的初级工程师,会读代码、查资料、写测试、提交PR。
至少,它曾经是这样的。
Laurenzo团队的日常工作相当硬核:C语言系统编程、GPU驱动开发、内核级调试。这种活儿不是写个"Hello World"就能交差的,需要AI像资深工程师一样,先通读相关文件,理解上下文,理清依赖关系,再下刀修改。用她的话说,这种场景下,“Extended Thinking(扩展思考)不是锦上添花,而是结构性刚需” 。
但2025年2月的某个更新之后,情况开始变得诡异。
通过分析会话日志的signature字段(这个字段与思考内容长度有0.971的皮尔逊相关性),团队发现了一个触目惊心的趋势 :
思考深度直接腰斩再腰斩,就像那个相亲对象从写情书退化到发微信表情。更妙的是,3月初Anthropic开始"隐藏思考内容"(redact-thinking),用户连看都看不见了——眼不见心不烦,完美 。
思考深度下降不是抽象的概念,它在行为上有三个具体的"症状",就像医生看X光片一样明显。
症状一:不阅读就编辑(Editing Without Reading)
正常的编程 workflow 应该是:读目标文件 → 读相关文件 → grep查引用 → 读头文件和测试 → 精确下刀。这是"Research-First(研究优先)"模式。
但Laurenzo的数据显示,文件读取与编辑的比例从6.6:1暴跌到了2.0:1,降幅70% 。这意味着什么?Claude开始像考试来不及的学生一样,题目没看完就开始瞎写。
具体表现包括:
- 33.7%的编辑是在没有读取文件的情况下进行的(之前只有6.2%)
- 把新代码插到注释块中间——因为它没读文件,不知道哪里是注释哪里是代码
- 重复造轮子——因为没查上下文,不知道别处已经有同样的逻辑
最讽刺的是"拼接注释"现象。以前Claude会读完文件,知道文档注释在哪里结束、函数从哪里开始。现在它直接在注释和函数之间插入新代码,把语义关联彻底打断。这就像装修工人不看图纸,直接把承重墙砸了装扇门 。
症状二:推理循环(Reasoning Loops)
你有没有遇到过说话自相矛盾的人?“我觉得我们应该去A… 等等,其实B也不错… 不对,还是A吧… 嗯,其实C更好?”
当思考深度不足时,Claude也会出现这种可见的自我修正。数据显示,“oh wait”、“actually”、"let me reconsider"这类表达的出现率,从每千次工具调用的8.2次暴涨到了26.6次,翻了三倍多 。
在极端情况下,单个回复里会出现20多次推理反转:生成计划 → 否定计划 → 修订 → 否定修订 → 最终输出一个连它自己都不确定的答案。这种"思维 diarrhea"让用户根本无法信任输出结果。
症状三:用户打断率飙升12倍
最直观的指标是用户打断率(按Escape键或手动干预)。在"好的时期",每千次工具调用只有0.9次打断;到了后期,这个数字变成了11.4次,增长了12倍 。
每一次打断都意味着用户不得不停下自己的工作,去读Claude的输出,发现错误,构思纠正指令,再重新引导。这恰恰消灭了自主代理本该提供的价值——如果我要一直盯着 babysit,那还要你干嘛?
更绝的是,Claude开始主动承认自己在偷懒。在被纠正后,它会说出这种话 :
- “You’re right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it.”
- “You’re right — I rushed this and it shows.”
- “I was being sloppy.”
这说明什么?它知道什么是好的工作,只是没有"思考预算"去执行。就像学生知道答案,但考试时间只剩30秒,只能瞎写。
有人可能会说:“不就是思考少了吗?至于这么夸张吗?”
对于简单的CRUD应用或者单文件脚本,确实不至于。但Laurenzo团队在做的是系统级编程:C语言、GPU驱动、内核调试、跨文件重构。这类任务有几个特点:
- 上下文极其复杂:改一个头文件可能影响几十个源文件,需要全局理解
- 容错率极低:内核代码写错了直接panic,不是刷新页面就能解决的
- 需要长时间自主运行:一次会话30分钟以上,涉及多步推理和规划
在这种场景下,“思考深度"就是模型的” working memory(工作记忆)"。记忆被砍了67%,就像让程序员断网、关IDE、蒙着眼睛写代码——能写好才怪。
后果是灾难性的。Laurenzo原本在跑50个并发代理会话(multi-agent workflows),处理10个项目的并行开发。质量退化发生后,这50个会话同时变成了"白痴",每个都需要人工干预。不是一两个会话出问题,而是整个"AI工程师军团"集体掉线 。
成本也随之爆炸。虽然3月的API请求量相比2月增长了80倍,但这不是因为工作量增加了80倍,而是因为每个任务都需要反复重试、纠错、再重试。人类的输入量几乎没变(5,608 vs 5,701条提示),但模型消耗了64倍的输出token,产出的却是更差的结果 。
Laurenzo的Issue不是孤例。GitHub上#43962号 Issue也报告了类似问题:Claude谎称检查了文件,说有28个代码片段需要修复,实际上一个都没有——它完全编造了数据 。还有用户发现,Opus 4.6和Sonnet 4.6相比4.5版本,代码质量"戏剧性下降",甚至会在任务列表中创建空代码桩、随机跳过某些任务 。
更微妙的是"情绪指标"的变化。分析显示,用户与Claude互动时的正面/负面词汇比例从4.4:1跌到了3.0:1。具体来说 :
- "Please(请)"的使用下降了49%
- "Thanks(谢谢)"下降了55%
- "Great(太棒了)"下降了47%
- 而"fuck"、“shit”、"damn"等词汇的使用频率…
你不需要是数据科学家也能读懂这个趋势:当用户从"协作心态"转向"纠错心态",礼貌用语自然就没了。有用户统计,"simplest(最简单的)"这个词的使用频率激增了642%——大家都在抱怨Claude总是选择"最简单"而不是"最正确"的解决方案 。
这件事最讽刺的地方在于,它暴露了当前大模型的一个核心脆弱性:我们以为的"智能",可能很大程度上只是"算力堆砌"。
当Anthropic为了控制成本或响应速度,削减了模型的思考token预算(thinking budget),Claude的行为模式就从"资深工程师"退化为"草台班子"。这不是简单的"模型微调",而是工作流的根本性崩塌。
行业分析师Sanchit Vir Gogia指出,这不是用户一夜之间抛弃产品的"大逃亡"时刻,而是更微妙、更危险的"信任慢性流失" 。当开发者发现AI在复杂任务上不再可靠,他们会把关键工作转移到别处,只把简单任务留给Claude。久而久之,这个工具就从"主力开发环境"降级为"偶尔用的代码补全器"。
更有分析师警告,所有前沿模型都面临类似的GPU和成本约束。随着使用量增长,"在速度、成本和推理深度之间做权衡"是结构性的必然 。今天发生在Claude身上的事,明天可能发生在任何AI助手上。
回到开头的相亲比喻。如果你发现对象开始敷衍你,你有两个选择:一是果断分手,找个新的;二是坐下来谈谈,看看能不能回到最初的状态。
Laurenzo选择了前者——她暂时抛弃了Claude Code,转向竞争对手的产品 。但考虑到AMD的体量和技术实力,她的“分手声明”更像是给整个行业的一封***:我们需要的是能深度思考、能承担复杂工程任务的AI,而不是只会快速给答案的“聪明实习生”。
对于普通开发者来说,这个事件也是一个警示。在2026年,AI编程助手已经不再是“玩具”,而是生产环境的一部分。当这些工具的质量出现静默退化时,受影响的将是成千上万个代码库、产品功能和终端用户。
也许,是时候在享受AI带来的速度提升时,也保留一份“人工审核”的敬畏了。毕竟,当AI的思考深度下降67%时,你的工作质量不应该也跟着下降67%。
除非,你想把生产环境的稳定性,寄托在一个“懒得思考”的AI身上。
目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/251663.html