如何看待 Anthropic 发布的 Claude 4 Opus／Sonnet？对行业有什么影响？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

发布会很直爽，「发布即可用」在同行的衬托下争取了极大的好感度。Anthropic 现在是一门心思押注在编程和 Agent 领域了，只要能把这两个方向做扎实了，生态位还是挺稳固的。

从纸面参数看，Claude 4 相比 Claude 3.7 提升幅度没有跨代那么夸张，其实略低于预期。但考虑到 Anthropic「跑分没赢过，体验没输过」的传统，具体使用效果有待验证。

现在 Agent 也很卷，微软 Build 整个讲 Agent 叙事，Google I/O 都开始整 API（Artificial Pokemon Intelligence）的活了，Claude 4 虽然在编程领域的暂时领先，但考虑到 Claude 定价并不便宜而 Google 财大气粗，也许 Gemini 的份额还会上升。

这个月还在憋气的剩下 Grok 3.5（以及 DeepSeek），不知道月底前还能不能见到这俩出来走两步。

「我不是一个喜欢炒作的人，」 Dario Amodei 在台上略显轻松地说完这句开场白，随即就投下了一颗重磅炸弹：「就在此刻，Claude 4 Opus 和 Claude 4 Sonnet 已在所有相关产品平台上线！」

说真的，Anthropic 这场这可能是我今年看过最直爽的发布会，开局三分钟直接放大招，然后网页、API 立即可用。能与之媲美的也许只有连发布会都不开的 DeepSeek 吧。

Anthropic 这次发布了 Claude 4 系列中的两款模型：

Claude 4 Opus：定位最强、最智能的模型，专为复杂推理、顶级编程和 AI Agent 工作流打造。
Claude 4 Sonnet：性能卓越，兼具高推理能力和高效率，是 Claude 3.7 Sonnet 的显著升级版。

那么，Claude 4 究竟带来了哪些颠覆性的更新？又将如何改写 AI Agent 的未来？

编程能力登顶全球：Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩傲视群雄，Terminal-bench 得分 43.2%，登顶「世界**编程模型」。Claude 4 Sonnet 在 SWE-bench 上也取得了 72.7% 的 SOTA 成绩。

AI Agent 能力再突破：

扩展思考与工具使用：模型能在「扩展思考」模式下调用网页搜索等工具，实现推理与工具的交替使用，大幅提升响应质量。
并行工具执行：可同时调用多个工具，效率更高。

指令遵循更精准：对复杂指令的理解和执行能力显著增强。
记忆力大幅提升：通过开发者授予的本地文件访问权限，模型能创建和维护「记忆文件」，提取并保存关键信息，实现跨会话的连续性和隐性知识积累。
Claude Code 全面开放：此前备受好评的 Claude Code（原 CLI 工具）正式 GA，支持 GitHub Actions 后台任务，并原生集成 VS Code 和 JetBrains IDE，可直接在文件中显示编辑建议，实现无缝结对编程。同时发布 Claude Code SDK，赋能开发者构建自己的 AI Agent。
全新 API 能力：

代码执行工具：赋予 Claude 运行代码的能力。
MCP 连接器：通过 MCP，让 Claude 能与现有系统和工具无缝连接。
Files API：简化文档访问和存储，支持构建更强大的记忆功能。
提示词缓存长达 1 小时：显著降低长对话和 Agent 工作流的成本和延迟。

更负责任的 AI：模型「走捷径」、「钻空子」完成任务的行为比 Sonnet 3.7 减少了 65%。Opus 4 更是 Anthropic 首个激活 ASL-3（AI 安全级别 3）保护措施的模型，以应对潜在的 CBRN（化学、生物、放射性和核）武器相关风险。
混合模型，两种模式：提供近乎即时的响应和用于深度推理的「扩展思考」模式。
定价保持不变：Opus 4 为 \(15/\)75 每百万输入/输出 tokens，Sonnet 4 为 \(3/\)15 每百万输入/输出 tokens。

多平台可用：Anthropic API、亚马逊 Bedrock、谷歌云 Vertex AI 均已上线。

「我们已经有一段时间没有 Opus 模型了，」Dario 在发布会上提醒道，「Opus 是我们能力最强、最智能的模型。」

而这次的 Claude 4 Opus，更是将「智能」二字推向了新的高度，尤其是在编程和复杂问题解决领域。

Anthropic 官方数据显示，Claude 4 在编程基准测试中名列前茅：

Dario 自豪地表示：「一些我们最高级的工程师都惊讶于 Opus 4 让他们变得多么高效。甚至有一次，我看到 Claude 写的内部总结文档，差点以为是团队里某个人写的，这是第一次我被 AI『骗』到。」

合作伙伴们也纷纷发来「贺电」：

Cursor：「这是编程领域的 SOTA 模型，是理解复杂代码库的一大飞跃。」
Replit：「在跨多文件的复杂变更上，精度和能力都有了巨大提升。」
Block：「这是第一个在其 AI Agent 『codename goose』中，能在编辑和调试时提升代码质量，同时保持完整性能和可靠性的模型。」
Rakuten：「通过一项要求严苛的开源重构任务验证了其能力，该任务独立运行了 7 小时并保持持续性能。」
Cognition：「Opus 4 擅长解决其他模型无法应对的复杂挑战，成功处理了先前模型错过的关键操作。」

Mike Krieger 补充道：「Opus 4 非常擅长理解你的代码库并规划新增功能。从代码迁移到重构，它都极其高效和准确，是你最复杂 Agentic 工作流的正确选择。如果你发现其他模型在你的用例上碰壁了，我相信 Opus 4 会给你惊喜。」

一个令人印象深刻的例子是 Claude 4 Opus 玩《宝可梦》的能力。据 WIRED 报道和 Anthropic 研究员 David Hershey 透露，Claude 4 Opus 能够连续 24 小时有策略地玩《宝可梦红版》，而此前的 Claude 3.7 Sonnet 最长只能坚持 45 分钟。

Opus 4 在游戏中展示了出色的长期记忆和规划能力，比如在意识到需要特定能力才能前进后，它会花两天时间提升技能再继续游戏。当被赋予本地文件访问权限时，Opus 4 甚至会创建和维护「记忆文件」（如「导航指南」）来记录关键信息，辅助游戏。

这种长时间、多步骤、几乎没有即时反馈的推理能力，展示了模型前所未有的连贯性。

如果说 Opus 4 是追求极致性能的「旗舰」，那么 Claude 4 Sonnet 则是性能与效率的「甜点级」选择。

Dario 表示：「Sonnet 是我们都熟悉并喜爱的中端模型，在智能和效率之间取得了良好平衡。」而 Claude 4 Sonnet 在 Sonnet 3.7 行业领先能力的基础上再次显著提升，尤其是在编程方面，SWE-bench 得分高达 72.7%。

Mike Krieger 形容 Sonnet 4 为「你永远在线的编程伙伴」，非常适合日常编程任务、应用开发和结对编程，以及高吞吐量的使用场景。

「对于许多人来说，这会是 Sonnet 3.7 的一个严格改进版本，成本相同，但智能更高。许多客户正在直接从一个切换到另一个。」 Dario 补充道，「它特别解决了我们从 Sonnet 3.7 收到的一些关于『过度热情』（over eagerness）的反馈——即模型做得比你要求的更多，这与早期的『懒惰』问题正好相反。」

众多客户也对 Sonnet 4 给出了高度评价：

GitHub：「Claude Sonnet 4 在 Agentic 场景中表现出色，并将作为 GitHub Copilot 中新编程 Agent 的基础模型。」
Manus：「在遵循复杂指令、清晰推理和美学输出方面有显著改进。」
iGent：「Sonnet 4 在自主多功能应用开发方面表现优异，问题解决和代码库导航能力也大幅提升，导航错误率从 20% 降至接近零。」
Sourcegraph：「该模型展示了在软件开发领域实现重大飞跃的潜力——能更长时间保持专注，更深入理解问题，并提供更优雅的代码质量。」
Augment Code：「更高的成功率，更精准的代码编辑，以及在复杂任务中更细致的工作，使其成为我们主要模型的首选。」

「我知道『Agent』这个词最近被提及很多，」 Mike Krieger 在台上开玩笑说，「Anthropic 内部有个笑话，看开会多久才会提到『Agent』这个词，目前记录是 17 分钟。」

玩笑归玩笑，AI Agent 无疑是本次发布会的核心焦点。Claude 4 系列带来的新能力，正推动 AI Agent 从「概念」走向「实用」，并朝着「不可或缺的虚拟合作者」迈进。

这是 Claude 4 的一大亮点。模型现在可以在思考过程中主动调用外部工具，如网页搜索，获取实时信息或执行特定操作，然后将这些信息整合到其推理链中，从而给出更全面、准确的回答。这种「边想边用工具」的能力，让 Claude 不再仅仅是一个封闭的知识库，而是能够与现实世界互动的智能体。

正如玩《宝可梦》的例子，Claude 4 Opus 在被授予访问本地文件的权限后，能够创建和维护「记忆文件」。这种「自管理内存」的能力，使其能够记住跨会话的关键信息、上下文和用户偏好，从而在长达数小时的复杂任务中保持连贯性和专注度。Rakuten 的 7 小时代码重构案例就是明证。Mike Krieger 提到，Claude 3.7 Sonnet 大约能自主工作 45 分钟不「掉线」，而 Claude 4 则将这个时间提升到了「小时级别」。

Claude Code 从一个内部实验项目（最初叫 Claude CLI）迅速成长为 Anthropic 内部工程师日常依赖的工具，并在此次发布会上正式 GA。

IDE 集成：VS Code 和 JetBrains 用户可以直接在编辑器中看到 Claude Code 提出的修改建议，实现更流畅的开发体验。
Claude Code SDK：允许开发者将 Claude Code 的核心 Agent 能力集成到自己的应用和工作流中。
GitHub 集成：通过 SDK 实现，可以在 GitHub 的 PR 或 Issue 中 @Claude Code，让它响应审查反馈、修复 CI 错误或修改代码，就像多了一个虚拟团队成员。

Cat Wu 在现场演示了 Claude Code 如何为一个开源白板工具 Excalidraw 实现一个积压已久的功能请求——添加表格组件。Claude Code 在 90 分钟内完成了任务，包括理解需求、探索代码库、编写代码、编写测试并迭代修复，最终成功提交了一个包含完整功能的 PR。

为了让开发者能构建更强大的 AI Agent，Anthropic API 新增了四项关键能力：

代码执行工具 (Code Execution Tool)：让 Claude 不仅能写代码，还能运行代码，进行数据分析、可视化等。
MCP 连接器 (MCP Connector)：通过 API 直接使用模型上下文协议，使 Claude 能轻松调用外部工具和服务。Mike Krieger 提到，MCP 已获得微软、谷歌、OpenAI 等行业巨头以及 Zapier、Linear 等工具的采用。
Files API：简化了开发者与 Claude 共享和存储文档的方式，是实现长期记忆和上下文管理的关键。Anthropic 还提供了 Cookbook 指导开发者如何利用 Files API 构建记忆功能。
提示缓存 1 小时 (1-hour Prompt Caching)：对于需要大量上下文或长对话的 Agent 应用，此前的 5 分钟缓存 TTL 可能不够。新的 1 小时高级 TTL 选项（付费）能将成本降低高达 90%，延迟降低高达 85%，让长时程 Agent 应用在经济上更可行。

这些 API 能力是相辅相成的：「Claude 现在可以执行代码，理解你的系统，访问当前信息，为在完整上下文中操作的 Agent 奠定基础，即使是长时间运行的任务。并且它可以使用 Files API 在整个执行过程中维护记忆和上下文。」

作为一家以安全为核心使命的公司，Anthropic 在发布更强大模型的同时，也升级了其安全措施。

Claude 4 Opus 是 Anthropic 首个在 AI 安全级别 3 (ASL-3)标准下部署的模型。这一决策是预防性的，因为尽管尚未最终确定 Opus 4 是否明确达到了触发 ASL-3 保护的「能力阈值」，但 Anthropic 认为，鉴于模型在 CBRN（化学、生物、放射性和核）相关知识和能力上的持续进步，已无法像先前模型那样明确排除 ASL-3 风险。

ASL-3 标准包括：

增强的内部安全措施：更难窃取模型权重。
特定的部署措施：旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括「宪法分类器」（Constitutional Classifiers），即实时监控模型输入输出的守卫分类器，以阻止特定类型的有害 CBRN 信息。
防止通用越狱：限制那些能系统性绕过护栏，提取大量 CBRN 相关信息的攻击。
出口带宽控制初步实施：限制数据从安全计算环境流出的速率，利用模型权重文件较大的特点，增加窃取难度。

Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露，内部测试表明 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更有效。「我们的模型表明，合成像 COVID 或更危险流感病毒这样的东西可能成为可能。」因此，尽管不确定 Opus 4 是否绝对构成严重生物武器风险，但公司选择「倾向于谨慎」。

Dario Amodei 在发布会后的炉边谈话中也重申了对「负责任扩展（Responsible Scaling）」的承诺，认为安全与能力可以协同发展，形成「竞相向上（Race to the Top）」的良性循环。

在与 Mike Krieger 的炉边谈话中，Dario Amodei 对 AI 的未来充满期待：

一年内：编程领域将发生不可思议的变化，AI Agent 将能管理「Agent 舰队」。软件生产成本将大幅下降，为特定事件或个人定制软件将变得极其廉价和快捷。
五年内：生物医药领域有望取得重大突破，许多现有疾病可能被攻克。
给开发者的建议：「雄心勃勃一点（Be ambitious）。构建一些你认为超出当前可能性的东西。即使现在行不通，下一个模型版本可能很快就会让它成为现实。」他风趣地说，模型迭代周期可能从现在的 3 个月缩短到 2 个月，甚至 1 个月。

Mike Krieger 也分享了他对 AI Agent 的愿景：它们应该具备上下文智能（理解你和组织的独特背景并持续学习）、长时程执行能力（处理复杂多步任务无需持续管理）和真正的协作能力（进行有意义的对话，适应你的工作风格，并提供透明的推理）。

「未来不是 AI 取代人类工作，而是 AI 帮助人类完成超乎想象的工作。」 Krieger 总结道。

从全球顶尖的编程能力，到日益成熟的 AI Agent 框架。此次 Claude 4 系列的发布，无疑是 Anthropic 在通往更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。

开发者们，准备好迎接 Claude 4 带来的生产力革命了吗？

[1]

[2]

[3]

[4]

[5]

[6]

如何看待 Anthropic 发布的 Claude 4 Opus／Sonnet？对行业有什么影响？

相关推荐