如何看待 Anthropic 发布的 Claude 4 Opus/Sonnet?对行业有什么影响?

如何看待 Anthropic 发布的 Claude 4 Opus/Sonnet?对行业有什么影响?发布会很直爽 发布即可用 在同行的衬托下争取了极大的好感度 Anthropic 现在是一门心思押注在编程和 Agent 领域了 只要能把这两个方向做扎实了 生态位还是挺稳固的 从纸面参数看 Claude 4 相比 Claude 3 7 提升幅度没有跨代那么夸张 其实略低于预期 但考虑到 Anthropic 跑分没赢过 体验没输过 的传统 具体使用效果有待验证 现在 Agent 也很卷

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



发布会很直爽,「发布即可用」在同行的衬托下争取了极大的好感度。Anthropic 现在是一门心思押注在编程和 Agent 领域了,只要能把这两个方向做扎实了,生态位还是挺稳固的。

从纸面参数看,Claude 4 相比 Claude 3.7 提升幅度没有跨代那么夸张,其实略低于预期。但考虑到 Anthropic「跑分没赢过,体验没输过」的传统,具体使用效果有待验证。

现在 Agent 也很卷,微软 Build 整个讲 Agent 叙事,Google I/O 都开始整 API(Artificial Pokemon Intelligence)的活了,Claude 4 虽然在编程领域的暂时领先,但考虑到 Claude 定价并不便宜而 Google 财大气粗,也许 Gemini 的份额还会上升。

这个月还在憋气的剩下 Grok 3.5(以及 DeepSeek),不知道月底前还能不能见到这俩出来走两步。


「我不是一个喜欢炒作的人,」 Dario Amodei 在台上略显轻松地说完这句开场白,随即就投下了一颗重磅炸弹:「就在此刻,Claude 4 Opus 和 Claude 4 Sonnet 已在所有相关产品平台上线!」

说真的,Anthropic 这场这可能是我今年看过最直爽的发布会,开局三分钟直接放大招,然后网页、API 立即可用。能与之媲美的也许只有连发布会都不开的 DeepSeek 吧。

Anthropic 这次发布了 Claude 4 系列中的两款模型:

  • Claude 4 Opus:定位最强、最智能的模型,专为复杂推理、顶级编程和 AI Agent 工作流打造。
  • Claude 4 Sonnet:性能卓越,兼具高推理能力和高效率,是 Claude 3.7 Sonnet 的显著升级版。

那么,Claude 4 究竟带来了哪些颠覆性的更新?又将如何改写 AI Agent 的未来?

  • 编程能力登顶全球:Claude 4 Opus 在 SWE-bench 上以 72.5% 的成绩傲视群雄,Terminal-bench 得分 43.2%,登顶「世界**编程模型」。Claude 4 Sonnet 在 SWE-bench 上也取得了 72.7% 的 SOTA 成绩。
  • AI Agent 能力再突破
    • 扩展思考与工具使用:模型能在「扩展思考」模式下调用网页搜索等工具,实现推理与工具的交替使用,大幅提升响应质量。
    • 并行工具执行:可同时调用多个工具,效率更高。
  • 指令遵循更精准:对复杂指令的理解和执行能力显著增强。
  • 记忆力大幅提升:通过开发者授予的本地文件访问权限,模型能创建和维护「记忆文件」,提取并保存关键信息,实现跨会话的连续性和隐性知识积累。
  • Claude Code 全面开放:此前备受好评的 Claude Code(原 CLI 工具)正式 GA,支持 GitHub Actions 后台任务,并原生集成 VS Code 和 JetBrains IDE,可直接在文件中显示编辑建议,实现无缝结对编程。同时发布 Claude Code SDK,赋能开发者构建自己的 AI Agent。
  • 全新 API 能力
    • 代码执行工具:赋予 Claude 运行代码的能力。
    • MCP 连接器:通过 MCP,让 Claude 能与现有系统和工具无缝连接。
    • Files API:简化文档访问和存储,支持构建更强大的记忆功能。
    • 提示词缓存长达 1 小时:显著降低长对话和 Agent 工作流的成本和延迟。
  • 更负责任的 AI:模型「走捷径」、「钻空子」完成任务的行为比 Sonnet 3.7 减少了 65%。Opus 4 更是 Anthropic 首个激活 ASL-3(AI 安全级别 3)保护措施的模型,以应对潜在的 CBRN(化学、生物、放射性和核)武器相关风险。
  • 混合模型,两种模式:提供近乎即时的响应和用于深度推理的「扩展思考」模式。
  • 定价保持不变:Opus 4 为 \(15/\)75 每百万输入/输出 tokens,Sonnet 4 为 \(3/\)15 每百万输入/输出 tokens。
  • 多平台可用:Anthropic API、亚马逊 Bedrock、谷歌云 Vertex AI 均已上线。

「我们已经有一段时间没有 Opus 模型了,」Dario 在发布会上提醒道,「Opus 是我们能力最强、最智能的模型。」

而这次的 Claude 4 Opus,更是将「智能」二字推向了新的高度,尤其是在编程和复杂问题解决领域。

Anthropic 官方数据显示,Claude 4 在编程基准测试中名列前茅:

Dario 自豪地表示:「一些我们最高级的工程师都惊讶于 Opus 4 让他们变得多么高效。甚至有一次,我看到 Claude 写的内部总结文档,差点以为是团队里某个人写的,这是第一次我被 AI『骗』到。」

合作伙伴们也纷纷发来「贺电」:

  • Cursor:「这是编程领域的 SOTA 模型,是理解复杂代码库的一大飞跃。」
  • Replit:「在跨多文件的复杂变更上,精度和能力都有了巨大提升。」
  • Block:「这是第一个在其 AI Agent 『codename goose』中,能在编辑和调试时提升代码质量,同时保持完整性能和可靠性的模型。」
  • Rakuten:「通过一项要求严苛的开源重构任务验证了其能力,该任务独立运行了 7 小时并保持持续性能。」
  • Cognition:「Opus 4 擅长解决其他模型无法应对的复杂挑战,成功处理了先前模型错过的关键操作。」

Mike Krieger 补充道:「Opus 4 非常擅长理解你的代码库并规划新增功能。从代码迁移到重构,它都极其高效和准确,是你最复杂 Agentic 工作流的正确选择。如果你发现其他模型在你的用例上碰壁了,我相信 Opus 4 会给你惊喜。」

一个令人印象深刻的例子是 Claude 4 Opus 玩《宝可梦》的能力。据 WIRED 报道和 Anthropic 研究员 David Hershey 透露,Claude 4 Opus 能够连续 24 小时有策略地玩《宝可梦红版》,而此前的 Claude 3.7 Sonnet 最长只能坚持 45 分钟。

Opus 4 在游戏中展示了出色的长期记忆和规划能力,比如在意识到需要特定能力才能前进后,它会花两天时间提升技能再继续游戏。当被赋予本地文件访问权限时,Opus 4 甚至会创建和维护「记忆文件」(如「导航指南」)来记录关键信息,辅助游戏。

这种长时间、多步骤、几乎没有即时反馈的推理能力,展示了模型前所未有的连贯性。

如果说 Opus 4 是追求极致性能的「旗舰」,那么 Claude 4 Sonnet 则是性能与效率的「甜点级」选择。

Dario 表示:「Sonnet 是我们都熟悉并喜爱的中端模型,在智能和效率之间取得了良好平衡。」 而 Claude 4 Sonnet 在 Sonnet 3.7 行业领先能力的基础上再次显著提升,尤其是在编程方面,SWE-bench 得分高达 72.7%

Mike Krieger 形容 Sonnet 4 为「你永远在线的编程伙伴」,非常适合日常编程任务、应用开发和结对编程,以及高吞吐量的使用场景。

「对于许多人来说,这会是 Sonnet 3.7 的一个严格改进版本,成本相同,但智能更高。许多客户正在直接从一个切换到另一个。」 Dario 补充道,「它特别解决了我们从 Sonnet 3.7 收到的一些关于『过度热情』(over eagerness)的反馈——即模型做得比你要求的更多,这与早期的『懒惰』问题正好相反。」

众多客户也对 Sonnet 4 给出了高度评价:

  • GitHub:「Claude Sonnet 4 在 Agentic 场景中表现出色,并将作为 GitHub Copilot 中新编程 Agent 的基础模型。」
  • Manus:「在遵循复杂指令、清晰推理和美学输出方面有显著改进。」
  • iGent:「Sonnet 4 在自主多功能应用开发方面表现优异,问题解决和代码库导航能力也大幅提升,导航错误率从 20% 降至接近零。」
  • Sourcegraph:「该模型展示了在软件开发领域实现重大飞跃的潜力——能更长时间保持专注,更深入理解问题,并提供更优雅的代码质量。」
  • Augment Code:「更高的成功率,更精准的代码编辑,以及在复杂任务中更细致的工作,使其成为我们主要模型的首选。」

「我知道『Agent』这个词最近被提及很多,」 Mike Krieger 在台上开玩笑说,「Anthropic 内部有个笑话,看开会多久才会提到『Agent』这个词,目前记录是 17 分钟。」

玩笑归玩笑,AI Agent 无疑是本次发布会的核心焦点。Claude 4 系列带来的新能力,正推动 AI Agent 从「概念」走向「实用」,并朝着「不可或缺的虚拟合作者」迈进。

这是 Claude 4 的一大亮点。模型现在可以在思考过程中主动调用外部工具,如网页搜索,获取实时信息或执行特定操作,然后将这些信息整合到其推理链中,从而给出更全面、准确的回答。这种「边想边用工具」的能力,让 Claude 不再仅仅是一个封闭的知识库,而是能够与现实世界互动的智能体。

正如玩《宝可梦》的例子,Claude 4 Opus 在被授予访问本地文件的权限后,能够创建和维护「记忆文件」。这种「自管理内存」的能力,使其能够记住跨会话的关键信息、上下文和用户偏好,从而在长达数小时的复杂任务中保持连贯性和专注度。Rakuten 的 7 小时代码重构案例就是明证。Mike Krieger 提到,Claude 3.7 Sonnet 大约能自主工作 45 分钟不「掉线」,而 Claude 4 则将这个时间提升到了「小时级别」。

Claude Code 从一个内部实验项目(最初叫 Claude CLI)迅速成长为 Anthropic 内部工程师日常依赖的工具,并在此次发布会上正式 GA。

  • IDE 集成:VS Code 和 JetBrains 用户可以直接在编辑器中看到 Claude Code 提出的修改建议,实现更流畅的开发体验。
  • Claude Code SDK:允许开发者将 Claude Code 的核心 Agent 能力集成到自己的应用和工作流中。
  • GitHub 集成:通过 SDK 实现,可以在 GitHub 的 PR 或 Issue 中 @Claude Code,让它响应审查反馈、修复 CI 错误或修改代码,就像多了一个虚拟团队成员。

Cat Wu 在现场演示了 Claude Code 如何为一个开源白板工具 Excalidraw 实现一个积压已久的功能请求——添加表格组件。Claude Code 在 90 分钟内完成了任务,包括理解需求、探索代码库、编写代码、编写测试并迭代修复,最终成功提交了一个包含完整功能的 PR。

为了让开发者能构建更强大的 AI Agent,Anthropic API 新增了四项关键能力:

  • 代码执行工具 (Code Execution Tool):让 Claude 不仅能写代码,还能运行代码,进行数据分析、可视化等。
  • MCP 连接器 (MCP Connector):通过 API 直接使用模型上下文协议,使 Claude 能轻松调用外部工具和服务。Mike Krieger 提到,MCP 已获得微软、谷歌、OpenAI 等行业巨头以及 Zapier、Linear 等工具的采用。
  • Files API:简化了开发者与 Claude 共享和存储文档的方式,是实现长期记忆和上下文管理的关键。Anthropic 还提供了 Cookbook 指导开发者如何利用 Files API 构建记忆功能。
  • 提示缓存 1 小时 (1-hour Prompt Caching):对于需要大量上下文或长对话的 Agent 应用,此前的 5 分钟缓存 TTL 可能不够。新的 1 小时高级 TTL 选项(付费)能将成本降低高达 90%,延迟降低高达 85%,让长时程 Agent 应用在经济上更可行。

这些 API 能力是相辅相成的:「Claude 现在可以执行代码,理解你的系统,访问当前信息,为在完整上下文中操作的 Agent 奠定基础,即使是长时间运行的任务。并且它可以使用 Files API 在整个执行过程中维护记忆和上下文。」

作为一家以安全为核心使命的公司,Anthropic 在发布更强大模型的同时,也升级了其安全措施。

Claude 4 Opus 是 Anthropic 首个在 AI 安全级别 3 (ASL-3)标准下部署的模型。这一决策是预防性的,因为尽管尚未最终确定 Opus 4 是否明确达到了触发 ASL-3 保护的「能力阈值」,但 Anthropic 认为,鉴于模型在 CBRN(化学、生物、放射性和核)相关知识和能力上的持续进步,已无法像先前模型那样明确排除 ASL-3 风险。

ASL-3 标准包括:

  • 增强的内部安全措施:更难窃取模型权重。
  • 特定的部署措施:旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括「宪法分类器」(Constitutional Classifiers),即实时监控模型输入输出的守卫分类器,以阻止特定类型的有害 CBRN 信息。
  • 防止通用越狱:限制那些能系统性绕过护栏,提取大量 CBRN 相关信息的攻击。
  • 出口带宽控制初步实施:限制数据从安全计算环境流出的速率,利用模型权重文件较大的特点,增加窃取难度。

Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露,内部测试表明 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更有效。「我们的模型表明,合成像 COVID 或更危险流感病毒这样的东西可能成为可能。」因此,尽管不确定 Opus 4 是否绝对构成严重生物武器风险,但公司选择「倾向于谨慎」。

Dario Amodei 在发布会后的炉边谈话中也重申了对「负责任扩展(Responsible Scaling)」的承诺,认为安全与能力可以协同发展,形成「竞相向上(Race to the Top)」的良性循环。

在与 Mike Krieger 的炉边谈话中,Dario Amodei 对 AI 的未来充满期待:

  • 一年内:编程领域将发生不可思议的变化,AI Agent 将能管理「Agent 舰队」。软件生产成本将大幅下降,为特定事件或个人定制软件将变得极其廉价和快捷。
  • 五年内:生物医药领域有望取得重大突破,许多现有疾病可能被攻克。
  • 给开发者的建议:「雄心勃勃一点(Be ambitious)。构建一些你认为超出当前可能性的东西。即使现在行不通,下一个模型版本可能很快就会让它成为现实。」他风趣地说,模型迭代周期可能从现在的 3 个月缩短到 2 个月,甚至 1 个月。

Mike Krieger 也分享了他对 AI Agent 的愿景:它们应该具备上下文智能(理解你和组织的独特背景并持续学习)、长时程执行能力(处理复杂多步任务无需持续管理)和真正的协作能力(进行有意义的对话,适应你的工作风格,并提供透明的推理)。

「未来不是 AI 取代人类工作,而是 AI 帮助人类完成超乎想象的工作。」 Krieger 总结道。

从全球顶尖的编程能力,到日益成熟的 AI Agent 框架。此次 Claude 4 系列的发布,无疑是 Anthropic 在通往更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。

开发者们,准备好迎接 Claude 4 带来的生产力革命了吗?


[1]

[2]

[3]

[4]

[5]

[6]

小讯
上一篇 2026-03-12 20:45
下一篇 2026-03-12 20:47

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/215196.html