2026年如何评价 Anthropic 最新发布的 Claude Opus 4.6？有哪些技术亮点值得关注？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

We build Claude with Claude.

这是其发布日志^[1]里说的一句话。

现在AI模型的迭代，不仅仅是researcher的事，模型本身也参与到下个版本的迭代中了。

Claude Opus系列，coder最爱的模型。

虽然从4.6到4.5只是小版本号更新，质变不至于，但量变还是不少的，是一个「加量不加价」的升级。（话说Coding领域真是竞争白热化啊，与此同时，隔壁奥特曼家也一起发布了 GPT-5.3-Codex）

价格方面，还是和 Claude Opus 4.5 一样，输入\(5/1M token，输出\)25/1M token，一分钱没涨。

其提升主要在这四个方面。（顺便比较下刚发布的GPT-5.3-Codex如何）

Claude Opus 4.6在处理财务分析、深度研究、文档 / 表格 / 演示文稿创建与使用的效率显著提升，适配了更多日常办公场景；具体得分如何呢？可以在其网站看到，在 GDPval-AA（金融、法律等经济价值知识任务评估）中，比 Opus 4.5 高出 190 Elo 分，专业领域表现更优；

（我去搜了下，GPT-5.3-Codex的分数暂时未更新上去，晚点有分数了回来更新)

另外，这次还新增 Claude in PowerPoint，搭配升级后的 Claude in Excel，可实现数据处理与可视化全流程适配，匹配品牌规范自动生成演示文稿。

Claude Opus 4.6在这个方面，获行业最高评分，擅长深度、多步搜索，能精准定位网络上难获取的信息（BrowseComp 评测领先）；支持多智能体协作搜索，搭配专用工具后 BrowseComp 评分达 86.8%，远超 Opus 4.5；结合 1M token 长上下文窗口，检索长文本时信息遗漏减少，「上下文衰减」问题大幅改善（MRCR v2 测试 76% 得分，4.5 仅 18.5%）。

（目前稳坐第一，GPT-5.3系列还没出现）browsecomp

这就更是Opus 4.6的天下了。Opus 4.6规划更周密，可在大型代码库中稳定运行，代码审查、调试能力升级，能自主发现自身错误。（其实我感觉Opus 4.5这方面的能力已经强得很明显了）

在 Terminal-Bench 2.0（智能体编码评测）中获最高分，支持多语言编码，可独立完成百万行代码库迁移（耗时减半）；

除了Benchmark，Coding方面还介绍了研究预览阶段的Claude Code Agent Teams。简单说，就是能让多个 Opus Agent 组队干活，自主分工、并行协作。比如你要重构一个大型项目，可以让一个 Agent 负责分析代码结构，一个负责写核心逻辑，一个负责做单元测试，一个负责文档更新。更绝的是，你可以随时接管任意一个子 Agent，像用 tmux 一样切换控制，既享受自动化的效率，又不丢人工干预的灵活性，往「AI 软件工程团队」迈出的关键一步了。

不过，第一的宝座还没捂热，就被GPT-5.3-Codex抢去了，惨。

Opus 4.6 在多学科推理测试 Humanity’s Last Exam 中领跑所有前沿模型，能考虑其他模型遗漏的边缘案例；专家级推理能力强化，法律领域 BigLaw Bench 评分达 90.2%，生命科学（计算生物学、有机化学等）测试表现比 4.5 快近 2 倍；长上下文推理连贯性提升，可吸收海量信息后保持精准推理，无明显性能漂移。

害，看来Claude 5应该在年前不会发布了，大家可以松口气（或把熬夜的机会留给DeepSeek V4)。

从版本号我们能看的出来，这次更新不是大更新，算是一次小更新吧，所以没必要过度解读，不过这次小更新也有不少亮点：

首先就是发布节奏快了， Opus 4.5 在去年11月发布到现在的4.6只间隔了两个多月。

然后就是上下文窗口扩展到100万 token了，虽然这是Opus 的改进，但是 Sonnet ⁴⁄₄.5 也是100万，所以只能说是持平了，不过这样Opus 这种更强大的模型能够有更长的上下文肯定会得到更好的结果，这是肯定的。

比较大的更新有下面几个：

自适应思考（Adaptive Thinking）这个算是是架构层面的创新了，让模型能动态调整“思考深度”，这不是简单的参数调整，而是推理机制的改变。

ARC AGI 2 测试从37.6% → 68.8% 几乎翻了1倍，这种大幅提升说明模型在通用智能方面有实质性进步。

代理团队（Agent Teams）这块更像是应用层面的功能封装，我个人理解还是任务分解和调度，不算底层技术突破。

编程能力提升（Terminal-Bench、OSWorld等）依然领先，这个应该是没啥问题的，因为Opus 目前来说就是最强的编程模型。

如果要说关注点和更新的排序的话，我觉得应该是这样：

真正的创新：自适应思考、ARC-AGI的突破
亮眼但非核心：网络安全能力
追赶和优化：其他功能

其实更应该关注的是Opus 4.6发布以后，OpenAI立刻发布了GPT-5.3-Codex 这俩是杠上了。

两个模型对比见这个回答，因为GPT-5.3-Codex 是后发的，对比之类的就写在这里了

OpenAI 正式发布 GPT-5.3-Codex，与其他版本相比，它在哪些方面有所改进？

最后再多说一句，谷歌自家的antigravity反应还是太慢了，下午更新了一下copilot，已经有opus 4.6了，antigravity还只有4.5，这第二大金主当的有点不称职啊

之前有传闻称将发布 Claude Sonnet 5 以及 Opus 4.6：

但实际上本次只推出了 Claude Opus 4.6。

https://www.zhihu.com/video/0

Claude Opus 4.6的主要亮点：

能力提升显著：在编程、Agent 操作和计算机使用场景中，相比 Opus 4.5 有明显提升。在代理式编程评测集 Terminal-Bench 2.0 上，Opus 4.6 的表现超过 GPT-5.2，达到了 SOTA 水平。
支持超大上下文：Opus 4.6 是首个支持 100 万 token 上下文的 Opus 系列模型（Beta 版本），最大输出长度也从 64K 升级至 128K。
自适应思考（Adaptive Thinking）：模型可以动态决定何时思考以及需要思考多少。思考等级（Effort）新增 max 级别，目前共有四档：low、medium、high（默认）和 max。
价格不变：API 定价与 Opus 4.5 保持一致，每百万 token 输入 \(5，输出 \)25（但是比Claude Sonnet 4.5 贵1.5倍多）。

在知识更新方面，Claude Opus 4.6 的知识截止日期为 2025 年 5 月。在金融、法律等领域经济价值型任务评测集 GDPval-AA 上，Opus 4.6 的表现比业界第二名模型（OpenAI GPT-5.2）高约 144 Elo，比自家前代模型 Opus 4.5 高 190 Elo。

在 BrowseComp（评估模型在线查找难以定位信息能力的测试）上，Opus 4.6 的表现同样优于所有其他模型。

Opus 4.6的agentic编程能力也有明显提升，在代理式编程评测 Terminal-Bench 2.0 上超过 GPT-5.2 取得了最高分。

在复杂的多学科推理测试 Humanity’s Last Exam 上，也领先所有其他前沿模型（超过 GPT-5.2 Pro）。

Claude Opus 4.6 的另外一大亮点是支持1M上下文（beta版本，默认还是200K），更重要的是，它在长上下文任务上的实际可用性有了明显提升：不仅能在数十万 token 的输入中更稳定地保持关键信息，减少“上下文腐化”（context rot），还能更准确地从大量文档中检索相关内容。相比前代模型，Opus 4.6 在超长文本中找信息、基于长上下文继续推理的能力都有质的提升，这使得它更适合用于大型文档分析、长对话 agent 和复杂研究任务。

比如在 MRCR v2 的 8-needle 1M 版本测试中（一个“大海捞针”式基准，用于评估模型在海量文本中找出被“隐藏”信息的能力），Opus 4.6 的得分为 76%，而 Sonnet 4.5 仅为 18.5%。

而且，Opus 4.6 在长上下文中也表现出色的深度推理能力，在长下文推理评测集Graphwalks上也明显优于 Sonnet 4.5。

除此之外，Claude Opus 4.6 在软件工程能力、多语言编程能力、长期上下文连贯性、网络安全能力以及生命科学知识等领域也有出色表现。

Claude Opus 4.6 在智能能力提升的同时，还保持了高水平的安全性：它在误导、谄媚、鼓励妄想及配合滥用等不当行为上的出现频率低，过度拒答率也是近期 Claude 模型中最低。

特别地，Claude Opus 4.6 在金融 AI 领域取得显著进展，能够帮助专业人士基于准确分析做出决策，并生成高质量成果。它在金融推理、多任务处理和长周期任务专注度上优于市场上其他模型。内部评测显示，Claude Opus 4.6 在约 50 个金融分析用例上的表现，比前代模型 Claude Sonnet 4.5 提升超过 23 个百分点。

配合 Cowork、升级的Claude in Excel 和新推出的 Claude in PowerPoint，分析师可以更高效地完成财务模型、演示文稿和文档生成等工作。

https://www.zhihu.com/video/

Claude Opus 4.6 的API也有升级，支持1M上下文，输出支持128K，最大亮点是支持了自适应思考（adaptive thinking）。在自适应模式下，模型的思考是可选的。Claude 会评估每个请求的复杂度，并决定是否以及需要思考多少。

在默认的 high 思考等级下，Claude 几乎总会进行思考；而在较低的努力等级下，对于较简单的问题，Claude 可能会跳过思考。自适应思考还会自动启用交错思考（interleaved thinking），即 Claude 可以在调用工具的过程中进行思考，这使其在 Agent 工作流中表现尤为高效。

此外，Effort 参数（思考等级）现已全面开放（不再需要 Beta 标识），而且新增了 max 思考等级，这样就共有四档：low、medium、high（默认）和 max。

而且，Opus 4.6 还支持了上下文压缩（Beta阶段）。在长时间对话和 Agent 任务中，往往会达到上下文窗口的限制。上下文压缩会在对话接近可配置阈值时，自动总结并替换较早的上下文，从而让 Claude 在更长任务中持续运行而不受限制。

如果你想在国内更稳定地使用 Claude Opus 4.6 的 API，可以通过JieKou.AI（https://jiekou.ai/referral?invited_code=6K5X7J）接入。目前已经同步上线 Claude Opus 4.6，同时也支持 ChatGPT、Grok、Gemini 等模型，一个接口就能切换不同模型使用。

而且都是走官方 API 通道，国内网络可以直接访问，不需要额外配置，也支持支付宝付款。最近还新出了订阅包，用订阅包的方式算下来，价格大约是官方 API 的 75 折，对个人开发者和小团队更友好。无论是做 Agent 工作流，还是日常内容生成、代码和分析任务，都可以作为统一入口来用。

现在已经可以在JieKou.AI 上体验 Claude Opus 4.6 的自适应思考和 1M 上下文能力。注册时用这个（6K5X7J），还可以领取 3 刀试用券，用来实际测试模型效果。

除了推出Opus 4.6，Claude Code也支持了新功能：agent teams（研究预览阶段）。用户现在可以启动多个并行协作的 Agent，并实现自主协调：最适合需要拆分为独立、以阅读为主的任务，如代码库审查。agent teams 适合独立操作的并行任务，而对于顺序任务、同文件编辑或依赖复杂的工作，单会话或subagents 更高效。

这里还举了一个很牛逼的例子：拿Opus 4.6 通过agent teams来构建一款 C 编译器。然后几乎放手不管，两周后，它居然可以在 Linux 内核上运行。看起来未来不久AI自主开发软件将成为现实。

https://www.zhihu.com/video/

不过，在Opus 4.6的推出的同时，OpenAI也在昨晚发布了GPT-5.3-Codex，在 Terminal-Bench 2.0 上，GPT-5.3-Codex 达到了77.3%，显著超过了Opus 4.6。Anthropic和OpenAI真是一对冤家。

2026年如何评价 Anthropic 最新发布的 Claude Opus 4.6？有哪些技术亮点值得关注？

相关推荐