2026年如何看待 Anthropic 发布的混合推理模型 Claude 3.7 Sonnet？

大家好，我是讯享网，很高兴认识大家。

国外大模型巨头Anthropic终于推出了可以推理的大模型Claude 3.7 Sonnet，最大的亮点是业界首个混合推理模型。

https://www.zhihu.com/video/

什么是混合推理模型？简单来说，就是模型即可以以常规方式快速回答，又可以深度思考后给出答案。Claude 3.7 Sonnet集普通大语言模型和推理模型于一体，可以这样说，Claude 3.7 Sonnet相当于DeepSeek V3和DeepSeek R1的混合体。这是一种全新的设计理念，也符合人类的大脑能力，因为我们可以使用同一个大脑进行快速反应和深度思考。（盲猜就是后训练的RL区分了两种模式）

具体来说，Claude 3.7 Sonnet通过‘thinking’参数来控制两种模式。在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版本。在扩展思考模式下，它会在回答前进行自我反思，从而在数学、物理、指令遵循、编码以及许多其他任务上表现更优。同时Anthropic发现，在这两种模式下，模型的提示方式基本相似。从API接口可以看到，这里会有一个thinking参数，当enabled后，模型就使用扩展思考模式（如果模型能自助判断是否开启就更完美了，可能避免简单问题的过度思考）：

curl https://api.anthropic.com/v1/messages

讯享网

讯享网 <span class="o">--</span><span class="n">header</span> <span class="s2">&#34;x-api-key: $ANTHROPIC_API_KEY&#34;</span> \ <span class="o">--</span><span class="n">header</span> <span class="s2">&#34;anthropic-version: 2023-06-01&#34;</span> \ <span class="o">--</span><span class="n">header</span> <span class="s2">&#34;content-type: application/json&#34;</span> \ <span class="o">--</span><span class="n">data</span> \

‘{

<span class="s2">&#34;model&#34;</span><span class="p">:</span> <span class="s2">&#34;claude-3-7-sonnet-&#34;</span><span class="p">,</span> <span class="s2">&#34;max_tokens&#34;</span><span class="p">:</span> <span class="mi">20000</span><span class="p">,</span> <span class="s2">&#34;thinking&#34;</span><span class="p">:</span> <span class="p">{</span> <span class="s2">&#34;type&#34;</span><span class="p">:</span> <span class="s2">&#34;enabled&#34;</span><span class="p">,</span> <span class="s2">&#34;budget_tokens&#34;</span><span class="p">:</span> <span class="mi">16000</span> <span class="p">},</span> <span class="s2">&#34;messages&#34;</span><span class="p">:</span> <span class="p">[</span> <span class="p">{</span> <span class="s2">&#34;role&#34;</span><span class="p">:</span> <span class="s2">&#34;user&#34;</span><span class="p">,</span> <span class="s2">&#34;content&#34;</span><span class="p">:</span> <span class="s2">&#34;Are there an infinite number of prime numbers such that n mod 4 == 3?&#34;</span> <span class="p">}</span> <span class="p">]</span>

}’

而且通过 API 用户还可以控制思考的预算（budget_tokens）：这里可以设置 Claude 思考不超过 N 个 tokens，N 的值最高可达其输出限制的 128K token。

Claude 3.7 Sonnet的推理也符合test-time compute scaling law，这意味着增加思考的tokens可以提升性能，但也更慢。所以通过控制预算能够在速度（和成本）与回答质量之间进行权衡。

注意，Claude 3.7 Sonnet的思考过程也是用户可见的。

另外，Claude 3.7 Sonnet的推理模式开发中，减少了对数学和计算机科学竞赛问题的优化，而是将重点转向了更能反映企业实际使用大语言模型的现实任务，这点和OpenAI的o1有很大的区别。

特别地，Claude 3.7 Sonnet 在 SWE-bench Verified 和TAU-bench 上均超过o3-mini和DeepSeek R1实现了最先进的性能，SWE-bench Verified基准评估了 AI 模型解决现实世界软件问题的能力（这个大幅度超过其他同类模型，真的太强了），而 TAU-bench 是一个测试 AI 代理在复杂现实任务中与用户和工具交互的框架。这说明Claude 3.7 Sonnet更擅长解决现实问题。

Claude 3.7 Sonnet的更多评测结果如下所示，可以看到在开启扩展思考模式下，部分指标已经超过o3-mini以及DeepSeek R1，但是不强于Grok 3。不过在数学竞赛评测集上，效果要比o3-mini和DeepSeek R1差一些，这可能是前面所提到的：Claude 3.7 Sonnet训练过程中刻意减少了对数学竞赛问题的优化。

这里GPQA有两个结果，第二个结果是通过parallel test-time compute scaling来得到的，简单来说就是先同样的提示词采样多个回答，然后用一个打分模型选择最好的。和majority vote的区别是这里用一个学习过的打分模型来选择，而majority vote则选择出现次数最大的那个答案。实验看起来用打分模型比简单的majority vote要好。采样同算力的256个回答，限制最大64K的思考tokens，使用基于打分模型的parallel test-time compute scaling，Claude 3.7 Sonnet在GPQA上得分84.8%。

而且，Claude可以同时进行多种不同的扩展思维过程，这使得它能够考虑更多解决问题的方法，从而更频繁地得出正确答案。不过，在最新部署的模型中，尚不支持parallel test-time compute scaling功能。

除此之外，Anthropic还推出了首个代理编码工具Claude Code。Claude Code，能够搜索和阅读代码、编辑文件、编写和运行测试、提交代码并将其推送到 GitHub，以及使用命令行工具。在早期测试中，Claude Code 可以一次性完成了通常需要 45 分钟以上手动工作的任务，显著减少了开发时间和开销。感觉这个工具可能是Claude 3.7 Sonnet 最大的亮点。

https://www.zhihu.com/video/

补充一点，Claude 3.7 Sonnet的agent能力很强，它能够迭代调用函数、响应环境变化，并持续执行任务，直到完成开放式的任务。在《宝可梦》游戏中，Claude 3.7 Sonnet 提升很大，能成功击败三位宝可梦道馆馆主（游戏中的 Boss）并赢得了他们的徽章。

Claude在2027年的目标是成为pioneers：在解决具有挑战性的问题上取得了突破性进展，这些问题原本需要团队数年时间才能完成。虽然不是AGI，但是能实现这个目标也可能可怕。

神经一样的名字，神一样的表现。

(A社和DeepSeek是目前唯二专注于AGI核心智力的。)

Anthropic是十年老血栓，Claude 3.7是人能想出来名字么？我猜他们很后悔，没把Sonnet 3.5 New，叫做3.6，上次就“中风”过一次，现在又来一次。

应该是2025年春季模型的中流砥柱了。他们可以苟到6月份(目测是6月15左右)。

表现方面主要是两张图，一张是代码，一张是Agent (他们要抓超梦！) AIME和Math对A社没有什么意义。

在这张代码性能相关图上，SWE-bench，几乎所有模型都碰到49%的智力空气墙，感觉被神秘力量挡住了。 Claude 3.7突破了这道空气墙，达到62.3 / 70.3%，如果实战与官报相符，那么这算引领了世界。 ——目前我观察到Claude 3.7在UI设计、物理模拟，自动跑角色的行为智力上都达到了很高的成就。