Opus 4.7 藏着的几件事！Claude最强新模型不得不说的优缺点

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Claude Opus 4.7 终于发布了

一条写在官方介绍里、很多人滑过去没注意的话，值得先看：

In Claude Code, we‘ve raised the default effort level to xhigh for all plans.

所有订阅档位的 Claude Code，默认努力级别被提到了 xhigh。

Anthropic 给模型设了一个"思考档位"，档位越高思考越深、烧的 token 越多、响应越慢。

以前的默认档是中间档，这次悄悄换成了高档。你不改任何设置，同样问一句话，它想的时间更长、消耗的token也更多。

把默认思考模式提高只是第一件事，Claude把分词器也换了。

分词器是模型把文字切成 token 的方式，token 是计费单位。官方原话：同一段输入，新分词器产出的 token 数是旧的 1.0 到 1.35 倍，具体看内容类型。代码、JSON、结构化文本膨胀最厉害。

Anthropic 的 Amol Avasare 在推特上补了一句：为了抵消这件事，订阅计划的速率限制相应提高了。

API 按量付费的用户，账单自然涨。订阅用户 quota 涨了，但涨的幅度是不是真能覆盖 tokenizer 膨胀加 xhigh 默认档的叠加影响，官方没给具体数字。

HN 上一条 275 赞的顶楼讨论里，一位开发者算了笔账：多轮 agentic 会话里，每一轮都吃 tokenizer 溢出，每一轮都跑更高的思考档，两个效应会叠加放大。Anthropic 官方给出"净效果是有利的"这个结论，依据是一个单轮 prompt 的内部自动化评测——跟开发者真实的多轮交互根本不是一个场景。

Anthropic 自己也承认了这点。迁移指南里原话：推荐用户在真实流量上自测。

这件事为什么敏感，得看过去两个月开发者对 Opus 4.6 的情绪。

AMD 一位资深总监在 GitHub 上写过一条被转了很多次的吐槽："Claude 已经退化到无法再信任去做复杂工程"。HN 上大量开发者说主力工具从 Claude Code 切到了 Codex，理由是稳定。

官方否认做过任何降级，但外部主流猜测是算力不够：Mythos 的训练部署、Glasswing 安全实验、Opus 4.7 的预训练同时抢 GPU。

在这种背景下推一个默认档位被悄悄拉高、tokenizer 又涨 35% 的版本，开发者的第一反应是"又要涨价了"。

承认完社区情绪，也得承认 4.7 确实在硬指标上往上走了一个台阶。

最硬的一条外部证据来自 Artificial Analysis 的 GDPval-AA 榜单。这是一个用 ELO 打分、衡量模型完成真实工作任务能力的独立评测，通过一个叫 Stirrup 的开源框架测试模型调用 web 和 shell 的表现。

4 月 16 号榜单更新后，Opus 4.7 以 1753 分直接冲到榜首，超过 GPT-5.4 xhigh 的 1674 分、Sonnet 4.6 max 的 1667 分。跟 GPT-5.4 在同一套任务上 head-to-head，4.7 的隐含胜率大约 60%。这是一个第三方独立榜单，不是 Anthropic 自己的数据。

Anthropic 自己公布的分数也漂亮。SWE-bench Verified 从 80.8% 升到 87.6%，SWE-bench Pro 从 53.4% 升到 64.3%，OSWorld computer use 从 72.7% 升到 78.0%，GPQA Diamond 达到 94.2%。

合作方的一手反馈比跑分更直接。

Hex 的 CTO Caitlin Colgrove 说了一句关键的话："low-effort 的 4.7 大致等于 medium-effort 的 4.6。"翻译成人话：新版本同样难度的活，用更低的档位就能干完。如果成立，即便默认档位被上调，实际账单不一定真变贵。

其他家的反馈都在这条线上。的 CursorBench 从 58% 提到 70%，GitHub Copilot 的 93-task 基准提升 13%、其中四道题是 4.6 和 Sonnet 4.6 都解不出来的。Vercel、Warp、Qodo 都报告 4.7 解决了 4.6 反复失败的具体问题：并发 race condition、Terminal Bench 跑不过的任务、code review 里的边缘情况。

视觉能力的跳跃最戏剧。做自动化渗透测试的 XBOW 报告："视觉精度从 Opus 4.6 的 54.5% 跳到 4.7 的 98.5%。我们最大的痛点基本消失了。"Opus 4.7 把最大图像分辨率从 1568 像素提到 2576 像素，视觉容量涨了约三倍，让 computer use 场景里的坐标能 1:1 对应实际像素。

Opus 4.7 严格按字面执行指令。

以前的模型会松散解读、跳过一部分，4.7 会字面执行。

意思是你为早期模型写的 prompt，现在可能产生意料外的结果，得相应调整你的Prompt才能获得和之前差不多的效果。

系统卡里记了这个变化的另一面：4.7 有时会走到另一个极端，用户已经给了清楚指令、它还反过来问确认，或者把控制权过早交还给用户。这跟社区反馈的"Claude 有时不停追问"的印象对得上。

这条对写 prompt、做 agent 的开发者比跑分更有用。

过去两年靠 Claude"帮我脑补意图"的偷懒写法，在 4.7 上得重新审视。

容易被跑分表掩盖的细节：4.7 有几个维度明显比 4.6 弱。

最扎眼的一条在官方自己的系统卡里。长上下文的 MRCR v2 测试考的是大海捞针：把一根针藏进超长文本，看模型能不能找出来。256K 上下文下 Opus 4.6 是 91.9%，4.7 掉到 59.2%。1M 上下文下，4.6 是 78.3%，4.7 只有 32.2%。

Anthropic 工程师 Boris Cherny 在推特上直接辩解回应：出于科学诚实，MRCR 保留在了系统卡里，但这个测试一直在被逐步淘汰。

理由是 MRCR 考的是"在干扰项里找一个字面匹配"，不是人们真实使用长上下文的方式。

真实场景是让模型在长代码库里推理、在长文档里综合判断，不是大海捞针。

Anthropic 更看重应用层的长上下文能力，内部有另一个叫 Graphwalks 的测试，4.7 在长上下文代码推理上表现非常好。

推特上有位叫 stevibe 的用户发了发布实测：让 Opus 4.6 和 4.7 各跑两遍一个 canvas 树生长动画的测试。

4.6 两次都出了动画，4.7 两次都是静态树、没有生长过程。他的原话："4.7 的思考明显更短更快。这不是我期待的升级方向。"

另一位叫 Michael Joseph 的用户观察到类似现象：从 Opus 4.6 切到 4.7，同样的问题会被 route 到更少的 thinking。他怀疑 Anthropic 是用"只给 auto 选项"这种方式在省 token。

这跟"默认档位被上调"听起来矛盾，但其实是同一套逻辑的两面。Anthropic 新加的 adaptive thinking（自适应思考）让模型自己判断什么任务该想多久。

这对简单问题是优化。官方有个例子，用户问"50 米外的洗车店，该走路还是开车去"，4.7 直接回"开车，洗车店要洗的是车"，思考几乎为零。

但对那些表面看起来简单、实际需要推理的任务，模型自己的判断不一定靠谱。canvas 树动画就是这种场景：4.6 老老实实想了一会儿画出了动画，4.7 判断这题不难、少想了一步，结果画了个静态的。

把三条证据放一起看：MRCR 退步是官方承认的评测层面、canvas 树是第三方实测的能力层面、thinking 被 route 到更短是用户感知的交互层面。方向一致。

4.7 的 adaptive thinking 节省了算力，但也意味着模型对难度的自主判断会影响结果。

如果业务吃长文档检索、依赖视觉生成动画、或者任务看起来简单但需要深思，切过去前用自己的数据跑一轮。如果必要，显式把 effort 拉到 max 而不是信任默认的 adaptive。

Opus 4.7 发布的同时，Anthropic 放了几个对开发者有用的新功能。

xhigh 档位不只是 Claude Code 的新默认，API 里也多了这个介于 high 和 max 之间的档位，给了更细的档位控制。

task budgets 进公开 beta，让你给 agentic 循环设 token 预算，模型能看到倒计时、按预算优先级排工作、在预算快花完时平滑收尾，对生产环境成本可预测性很有用。

/ultrareview 是 Claude Code 里的新斜杠命令，跑一个专门的审查会话读完所有改动、标出仔细 reviewer 才能发现的问题，Pro 和 Max 用户免费三次。

auto mode 从 Teams/Enterprise 下放到了 Max 用户，Claude 在权限边界内自己做决策，减少打断。

Opus 4.7 是一次值得算数的升级：独立第三方榜单登顶、多家合作伙伴的一手证言、视觉能力三倍跳、指令遵循更严格。这些不是营销话术。

但这次升级同时动了两件跟你钱包直接相关的事：默认思考档位被上调，tokenizer 对同一段输入多产出 35% 的 token。官方的说法是"净效果有利"，依据是单轮内部评测，官方自己也建议"在真实流量上自测"。

如果你切过去，先把 Claude Code 的默认 effort 显式设一下，别让 xhigh 默认跑。根据任务难度选 high 或 max，盯着 token 用量。有一套在 4.6 上调好的 prompt，4.7 上先跑一遍，严格字面执行这条会改变一些老 prompt 的行为。如果业务吃长文档检索，别只看 MRCR 分数，用自己的数据跑。

4 月 7 日 Mythos Preview 发布之后的股价。那天起算到 4 月 17 日：Adobe 跌 2.71%，GoDaddy 跌 3.87%，Figma 跌 12.92%，Wix 跌 24.54%。它的发布日直接给做设计工具、做建站工具的上市公司砸出了一个坑。市场用脚投票认为这一级别的 AI 对现有软件工具是核级威胁。

Opus 4.7 藏着的几件事！Claude最强新模型不得不说的优缺点

相关推荐