Claude 3.7 Sonnet由AI研究公司Anthropic开发,于2025年2月25日发布(即今天),是Claude系列的最新迭代。根据Anthropic的官方公告,这款模型被定位为“迄今最智能的模型”,并首次引入混合推理功能,结合了普通大型语言模型(LLM)和专门的推理模型能力。
讯享网
Claude 3.7 Sonnet的关键创新在于其双模式设计:
- 标准模式:提供近乎即时的响应,适合快速交互。
- 扩展思考模式:允许模型逐步推理,展示思维过程,特别适用于复杂问题。这一模式在Amazon Bedrock中可通过切换启用,研究表明它显著提升了数学、物理和指令遵循任务的性能。
从技术角度看,该模型支持高达200K的上下文窗口,输出容量较Claude 3.5 Sonnet增加15倍,最高可达128K令牌(其中64K为一般可用,128K为beta版本)。扩展思考模式中的“思考令牌”计入输出令牌,计费标准为每百万输出令牌15美元。
Claude 3.7 Sonnet在多个基准测试中表现出色,尤其是在实际应用场景中:
- 编码能力:在SWE-bench Verified基准测试中,标准模式达到70.3%的成绩(使用高计算资源),在TAU-bench中表现优异,特别是在规划工具支持下,最大步骤数增加至100,多数任务在30步内完成。
- 多模态与代理编码:模型在指令遵循、一般推理和多模态任务中表现出色,特别是在Pokémon游戏测试中超越前代模型(详见Anthropic研究页面)。
- 数学与科学:扩展思考模式显著提升了数学和物理问题的解决能力,适合需要深思熟虑的场景。
以下是关键基准测试的详细数据:
| 基准测试 | 成绩 | 备注 |
|---|---|---|
| SWE-bench Verified | 70.3%(高计算),63.7%(无高计算) | 489任务,11个任务不可解,简单工具支持 |
| TAU-bench | 行业领先(规划工具,最大100步) | 多数任务在30步内完成,一个任务超过50步 |
| Pokémon游戏测试 | 超越Claude 3.5 Sonnet | 详见研究页面 |
Claude 3.7 Sonnet的可用性广泛,覆盖多个平台:
- Anthropic平台:适用于所有计划(免费、专业、团队、企业),通过Claude.ai(网页、iOS、Android)提供聊天体验。
- 云服务:集成至Amazon Bedrock(AWS产品页面)和Google Cloud的Vertex AI(Google Cloud文档)。
- API访问:通过Anthropic API提供,文档详见API文档。
Amazon Bedrock用户可通过控制台(AWS控制台)请求访问,并在Playgrounds中尝试聊天/文本功能,支持AWS SDK和Bedrock API(开发者工具,API参考)。
定价与Claude 3.5 Sonnet一致:
- 每百万输入令牌3美元。
- 每百万输出令牌15美元(包括思考令牌)。 成本优化选项包括:
- 提示缓存可节省高达90%成本(文档)。
- 批量处理可节省50%成本(批量消息定价)。
Amazon Bedrock的定价详情见AWS定价页面。
Anthropic强调了Claude 3.7 Sonnet的安全性与可靠性:
- 与前代相比,减少了45%的不必要拒绝,提升了用户体验。
- 经过外部专家的广泛测试,满足安全、可靠性和安全性标准。
- 系统卡片详细讨论了计算机使用风险和益处,涵盖安全问题如提示注入攻击(详见系统卡片)。
Claude 3.7 Sonnet适用于多种场景:
- 编码生成:支持长达128K令牌的输出,适合大型代码生成任务。
- 计算机使用:公共beta版本,实验性支持,适合自动化任务。
- 高级聊天机器人:增强知识问答、视觉数据提取和客户服务代理。
- 内容生成与分析:适用于研究总结、金融建模和机器人流程自动化。
Amazon Bedrock特别提到其在医疗影像分析、研究总结和代码审查中的应用潜力。
Reddit社区对Claude 3.7 Sonnet的反馈呈现两极分化:
- 命名争议:许多用户对3.7的命名感到失望,期待更显著的更新(如Claude 4.0),认为3.7暗示仅为小幅改进(如3.5到3.6)。社区戏称其为“Claude 3.69”或“3.5.final.final(new).use_this_one”。
- 功能期待:部分用户对扩展思考模式和编码能力表现出兴趣,预测其在LiveBench上可能达到80%的成绩,但也担心高输出定价(15美元/百万令牌)对代理工作流的影响。
- 总体情绪:既有兴奋(如“可能是SOTA”),也有怀疑(如“Anthropic总是落后3个月”),部分人将其视为“低调承诺,高调交付”的策略。
详见Reddit讨论。
Anthropic还推出了Claude Code的有限研究预览,这是一个代理命令行工具,允许开发者直接从终端委派编码任务,进一步增强了模型的实用性。
Claude 3.7 Sonnet代表了Anthropic在AI推理领域的最新进展,特别是在编码和复杂问题解决方面表现出色。尽管命名引发了一些争议,但其功能和性能得到了官方和第三方平台的认可,适合多种实际应用场景。
- Anthropic Claude 3.7 Sonnet and Claude Code Announcement
- AWS Anthropic’s Claude 3.7 Sonnet in Amazon Bedrock
- Wikipedia Claude Language Model Entry
- Reddit Community Discussion on Claude 3.7 Sonnet
- Anthropic Research on Visible Extended Thinking
- AWS Bedrock Claude Product Page
- Google Cloud Vertex AI Claude Documentation
- Anthropic API Models Documentation
- Anthropic Prompt Caching Documentation
- Anthropic Message Batches Pricing
- Anthropic Claude 3.7 Sonnet System Card
- AWS Bedrock Pricing Page
- AWS Bedrock Console
- AWS Developer Tools
- AWS Bedrock API Reference
- Claude.ai Official Website
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/210056.html