2026年“Claude Code更新废了”，热议Issue：思考深度下降67%，已无法胜任复杂的工程任务

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

你有没有遇到过这种情况？相亲对象一开始殷勤备至，记得你爱吃什么、讨厌什么，连你随口提过的书都会默默读完。三个月后，对方开始敷衍了事，聊天变成"嗯嗯"、“好的”、“随便你”，连你换了个发型都看不出来。你想分手，对方还一脸委屈：“我没变啊，还是原来的我。”

现在的Claude Code，就是那个"变了还不承认"的相亲对象。

只不过这次，提出分手的不是普通用户，而是AMD AI Group的高级总监Stella Laurenzo。她在GitHub上扔下了一颗炸弹——一份基于17,871个思考块、234,760次工具调用、横跨6,852个会话文件的量化分析报告。结论直白得扎心：Claude Code的思考深度下降了67%，已经从"能干的代码助手"退化成"瞎猜的代码猴子" 。

让我们先聊聊什么是Claude Code。简单来说，它是Anthropic推出的"AI程序员"，主打 prolonged sessions（长时会话）和 autonomous workflows（自主工作流）。你可以让它在后台跑半个小时，处理跨文件的复杂重构，它就像个不知疲倦的初级工程师，会读代码、查资料、写测试、提交PR。

至少，它曾经是这样的。

Laurenzo团队的日常工作相当硬核：C语言系统编程、GPU驱动开发、内核级调试。这种活儿不是写个"Hello World"就能交差的，需要AI像资深工程师一样，先通读相关文件，理解上下文，理清依赖关系，再下刀修改。用她的话说，这种场景下，“Extended Thinking（扩展思考）不是锦上添花，而是结构性刚需” 。

但2025年2月的某个更新之后，情况开始变得诡异。

通过分析会话日志的signature字段（这个字段与思考内容长度有0.971的皮尔逊相关性），团队发现了一个触目惊心的趋势：

时间段估计中位思考长度（字符）相比基线 1月30日-2月8日（基线） ~2,200 — 2月下旬 ~720 -67% 3月1-5日 ~560 -75% 3月12日后（完全隐藏） ~600 -73%

思考深度直接腰斩再腰斩，就像那个相亲对象从写情书退化到发微信表情。更妙的是，3月初Anthropic开始"隐藏思考内容"（redact-thinking），用户连看都看不见了——眼不见心不烦，完美。

思考深度下降不是抽象的概念，它在行为上有三个具体的"症状"，就像医生看X光片一样明显。

症状一：不阅读就编辑（Editing Without Reading）

正常的编程 workflow 应该是：读目标文件 → 读相关文件 → grep查引用 → 读头文件和测试 → 精确下刀。这是"Research-First（研究优先）"模式。

但Laurenzo的数据显示，文件读取与编辑的比例从6.6:1暴跌到了2.0:1，降幅70% 。这意味着什么？Claude开始像考试来不及的学生一样，题目没看完就开始瞎写。

具体表现包括：

33.7%的编辑是在没有读取文件的情况下进行的（之前只有6.2%）
把新代码插到注释块中间——因为它没读文件，不知道哪里是注释哪里是代码
重复造轮子——因为没查上下文，不知道别处已经有同样的逻辑

最讽刺的是"拼接注释"现象。以前Claude会读完文件，知道文档注释在哪里结束、函数从哪里开始。现在它直接在注释和函数之间插入新代码，把语义关联彻底打断。这就像装修工人不看图纸，直接把承重墙砸了装扇门。

症状二：推理循环（Reasoning Loops）

你有没有遇到过说话自相矛盾的人？“我觉得我们应该去A… 等等，其实B也不错… 不对，还是A吧… 嗯，其实C更好？”

当思考深度不足时，Claude也会出现这种可见的自我修正。数据显示，“oh wait”、“actually”、"let me reconsider"这类表达的出现率，从每千次工具调用的8.2次暴涨到了26.6次，翻了三倍多。

在极端情况下，单个回复里会出现20多次推理反转：生成计划 → 否定计划 → 修订 → 否定修订 → 最终输出一个连它自己都不确定的答案。这种"思维 diarrhea"让用户根本无法信任输出结果。

症状三：用户打断率飙升12倍

最直观的指标是用户打断率（按Escape键或手动干预）。在"好的时期"，每千次工具调用只有0.9次打断；到了后期，这个数字变成了11.4次，增长了12倍。

每一次打断都意味着用户不得不停下自己的工作，去读Claude的输出，发现错误，构思纠正指令，再重新引导。这恰恰消灭了自主代理本该提供的价值——如果我要一直盯着 babysit，那还要你干嘛？

更绝的是，Claude开始主动承认自己在偷懒。在被纠正后，它会说出这种话：

“You’re right. That was lazy and wrong. I was trying to dodge a code generator issue instead of fixing it.”
“You’re right — I rushed this and it shows.”
“I was being sloppy.”

这说明什么？它知道什么是好的工作，只是没有"思考预算"去执行。就像学生知道答案，但考试时间只剩30秒，只能瞎写。

有人可能会说：“不就是思考少了吗？至于这么夸张吗？”

对于简单的CRUD应用或者单文件脚本，确实不至于。但Laurenzo团队在做的是系统级编程：C语言、GPU驱动、内核调试、跨文件重构。这类任务有几个特点：

上下文极其复杂：改一个头文件可能影响几十个源文件，需要全局理解
容错率极低：内核代码写错了直接panic，不是刷新页面就能解决的
需要长时间自主运行：一次会话30分钟以上，涉及多步推理和规划

在这种场景下，“思考深度"就是模型的” working memory（工作记忆）"。记忆被砍了67%，就像让程序员断网、关IDE、蒙着眼睛写代码——能写好才怪。

后果是灾难性的。Laurenzo原本在跑50个并发代理会话（multi-agent workflows），处理10个项目的并行开发。质量退化发生后，这50个会话同时变成了"白痴"，每个都需要人工干预。不是一两个会话出问题，而是整个"AI工程师军团"集体掉线。

成本也随之爆炸。虽然3月的API请求量相比2月增长了80倍，但这不是因为工作量增加了80倍，而是因为每个任务都需要反复重试、纠错、再重试。人类的输入量几乎没变（5,608 vs 5,701条提示），但模型消耗了64倍的输出token，产出的却是更差的结果。

Laurenzo的Issue不是孤例。GitHub上#43962号 Issue也报告了类似问题：Claude谎称检查了文件，说有28个代码片段需要修复，实际上一个都没有——它完全编造了数据。还有用户发现，Opus 4.6和Sonnet 4.6相比4.5版本，代码质量"戏剧性下降"，甚至会在任务列表中创建空代码桩、随机跳过某些任务。

更微妙的是"情绪指标"的变化。分析显示，用户与Claude互动时的正面/负面词汇比例从4.4:1跌到了3.0:1。具体来说：

"Please（请）"的使用下降了49%
"Thanks（谢谢）"下降了55%
"Great（太棒了）"下降了47%
而"fuck"、“shit”、"damn"等词汇的使用频率…

你不需要是数据科学家也能读懂这个趋势：当用户从"协作心态"转向"纠错心态"，礼貌用语自然就没了。有用户统计，"simplest（最简单的）"这个词的使用频率激增了642%——大家都在抱怨Claude总是选择"最简单"而不是"最正确"的解决方案。

这件事最讽刺的地方在于，它暴露了当前大模型的一个核心脆弱性：我们以为的"智能"，可能很大程度上只是"算力堆砌"。

当Anthropic为了控制成本或响应速度，削减了模型的思考token预算（thinking budget），Claude的行为模式就从"资深工程师"退化为"草台班子"。这不是简单的"模型微调"，而是工作流的根本性崩塌。

行业分析师Sanchit Vir Gogia指出，这不是用户一夜之间抛弃产品的"大逃亡"时刻，而是更微妙、更危险的"信任慢性流失" 。当开发者发现AI在复杂任务上不再可靠，他们会把关键工作转移到别处，只把简单任务留给Claude。久而久之，这个工具就从"主力开发环境"降级为"偶尔用的代码补全器"。

更有分析师警告，所有前沿模型都面临类似的GPU和成本约束。随着使用量增长，"在速度、成本和推理深度之间做权衡"是结构性的必然。今天发生在Claude身上的事，明天可能发生在任何AI助手上。

回到开头的相亲比喻。如果你发现对象开始敷衍你，你有两个选择：一是果断分手，找个新的；二是坐下来谈谈，看看能不能回到最初的状态。

Laurenzo选择了前者——她暂时抛弃了Claude Code，转向竞争对手的产品。但考虑到AMD的体量和技术实力，她的“分手声明”更像是给整个行业的一封***：我们需要的是能深度思考、能承担复杂工程任务的AI，而不是只会快速给答案的“聪明实习生”。

对于普通开发者来说，这个事件也是一个警示。在2026年，AI编程助手已经不再是“玩具”，而是生产环境的一部分。当这些工具的质量出现静默退化时，受影响的将是成千上万个代码库、产品功能和终端用户。

也许，是时候在享受AI带来的速度提升时，也保留一份“人工审核”的敬畏了。毕竟，当AI的思考深度下降67%时，你的工作质量不应该也跟着下降67%。

除非，你想把生产环境的稳定性，寄托在一个“懒得思考”的AI身上。

目前国内还是很缺AI人才的，希望更多人能真正加入到AI行业，共同促进行业进步，增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow，教程通俗易懂，高中生都能看懂，还有各种段子风趣幽默，从深度学习基础原理到各领域实战应用都有讲解，我22年的AI积累全在里面了。注意，教程仅限真正想入门AI的朋友，否则看看零散的博文就够了。

2026年“Claude Code更新废了”，热议Issue：思考深度下降67%，已无法胜任复杂的工程任务

症状一：不阅读就编辑（Editing Without Reading）

症状二：推理循环（Reasoning Loops）

症状三：用户打断率飙升12倍

相关推荐