支持思维链！Claude 3.7 Sonnet详细介绍

大家好，我是讯享网，很高兴认识大家。

Claude 3.7 Sonnet由AI研究公司Anthropic开发，于2025年2月25日发布（即今天），是Claude系列的最新迭代。根据Anthropic的官方公告，这款模型被定位为“迄今最智能的模型”，并首次引入混合推理功能，结合了普通大型语言模型（LLM）和专门的推理模型能力。

Claude 3.7 Sonnet的关键创新在于其双模式设计：

标准模式：提供近乎即时的响应，适合快速交互。
扩展思考模式：允许模型逐步推理，展示思维过程，特别适用于复杂问题。这一模式在Amazon Bedrock中可通过切换启用，研究表明它显著提升了数学、物理和指令遵循任务的性能。

从技术角度看，该模型支持高达200K的上下文窗口，输出容量较Claude 3.5 Sonnet增加15倍，最高可达128K令牌（其中64K为一般可用，128K为beta版本）。扩展思考模式中的“思考令牌”计入输出令牌，计费标准为每百万输出令牌15美元。

Claude 3.7 Sonnet在多个基准测试中表现出色，尤其是在实际应用场景中：

编码能力：在SWE-bench Verified基准测试中，标准模式达到70.3%的成绩（使用高计算资源），在TAU-bench中表现优异，特别是在规划工具支持下，最大步骤数增加至100，多数任务在30步内完成。
多模态与代理编码：模型在指令遵循、一般推理和多模态任务中表现出色，特别是在Pokémon游戏测试中超越前代模型（详见Anthropic研究页面）。
数学与科学：扩展思考模式显著提升了数学和物理问题的解决能力，适合需要深思熟虑的场景。

以下是关键基准测试的详细数据：

Claude 3.7 Sonnet的可用性广泛，覆盖多个平台：

Amazon Bedrock用户可通过控制台（AWS控制台）请求访问，并在Playgrounds中尝试聊天/文本功能，支持AWS SDK和Bedrock API（开发者工具，API参考）。

定价与Claude 3.5 Sonnet一致：

Amazon Bedrock的定价详情见AWS定价页面。

Anthropic强调了Claude 3.7 Sonnet的安全性与可靠性：

Claude 3.7 Sonnet适用于多种场景：

Amazon Bedrock特别提到其在医疗影像分析、研究总结和代码审查中的应用潜力。

Reddit社区对Claude 3.7 Sonnet的反馈呈现两极分化：

命名争议：许多用户对3.7的命名感到失望，期待更显著的更新（如Claude 4.0），认为3.7暗示仅为小幅改进（如3.5到3.6）。社区戏称其为“Claude 3.69”或“3.5.final.final(new).use_this_one”。
功能期待：部分用户对扩展思考模式和编码能力表现出兴趣，预测其在LiveBench上可能达到80%的成绩，但也担心高输出定价（15美元/百万令牌）对代理工作流的影响。
总体情绪：既有兴奋（如“可能是SOTA”），也有怀疑（如“Anthropic总是落后3个月”），部分人将其视为“低调承诺，高调交付”的策略。

详见Reddit讨论。

Anthropic还推出了Claude Code的有限研究预览，这是一个代理命令行工具，允许开发者直接从终端委派编码任务，进一步增强了模型的实用性。

Claude 3.7 Sonnet代表了Anthropic在AI推理领域的最新进展，特别是在编码和复杂问题解决方面表现出色。尽管命名引发了一些争议，但其功能和性能得到了官方和第三方平台的认可，适合多种实际应用场景。