
翻译 | Tina
Anthropic 最新模型 Claude Opus 4.7 已正式全面上线。
相较于 Opus 4.6,Opus 4.7 在高级软件工程任务上更进一步,尤其是在高难度任务上的提升更明显。Anthropic 表示,它处理长任务更稳定,执行指令更精确,也会在返回结果前先做验证。

此前 Anthropic 发布了 Project Glasswing,讨论 AI 模型在网络安全领域的风险与价值,并明确表示 Claude Mythos Preview 将限制发布范围,同时优先在能力较弱的模型上测试新的安全机制。
Opus 4.7 是首个承担这一角色的模型:其网络安全能力不及 Mythos Preview。对于有正当网络安全需求的专业人士(如漏洞研究、渗透测试、红队演练),Anthropic 同时推出了 Cyber Verification Program,供申请参与。
Opus 4.7 价格与 Opus 4.6 保持一致:输入每百万 tokens 5 美元,输出每百万 tokens 25 美元。开发者可通过 Claude API 使用模型名称 claude-opus-4-7。
真正让 Opus 4.7 和上一代拉开差距的,还是下面这些更具体的测试表现。
在指令遵循方面,Opus 4.7 有显著提升。这也带来一个变化:过去为旧模型编写的 prompt,有时会出现结果偏差,因为旧模型可能会模糊理解甚至忽略部分指令,而 Opus 4.7 会更严格、逐字执行。因此,用户需要相应地重新调优 prompt 和 harness。
在多模态能力上,Opus 4.7 的视觉能力显著增强。它可以处理长边最高 2576 像素(约 375 万像素)的图像,是此前 Claude 模型的三倍以上。这使得依赖细节视觉信息的应用成为可能,例如读取复杂截图的电脑操作代理、从复杂图表中提取数据,以及需要像素级精度参考的任务。
在实际业务能力方面,除在 Finance Agent 评测中达到当前最优表现外,内部测试也显示,Opus 4.7 在金融分析任务上优于 Opus 4.6,能够生成更严谨的分析模型、更专业的展示内容,并在多任务之间实现更紧密的协同。
在记忆能力上,Opus 4.7 更善于利用基于文件系统的记忆机制,能够在跨会话的长周期任务中记住关键信息,并据此推进后续任务,从而减少前期上下文输入的负担。

除模型本身外,本次还同步发布了多项更新:
首先是更细粒度的推理强度控制。Opus 4.7 新增 xhigh(“超高”)档位,介于 high 和 max 之间,使用户可以在复杂问题上更灵活地权衡推理深度与延迟。在 Claude Code 中,默认推理强度已提升至 xhigh。对于编码和 agent 场景,建议从 high 或 xhigh 开始测试。
在 Claude 平台(API)方面,除支持更高分辨率图像外,还推出了 task budgets(任务预算,公测中),用于控制 token 消耗,从而在长任务中更合理地分配资源。
在 Claude Code 中,新增了 /ultrareview 命令,可开启专门的代码审查会话,自动读取变更内容并识别潜在 bug 和设计问题,接近资深工程师的审查能力。Pro 和 Max 用户可获得三次免费体验。此外,auto mode 也已扩展至 Max 用户,该模式允许 Claude 代替用户做出部分决策,从而减少中断,更顺畅地执行长任务,同时风险低于完全跳过权限控制。
另外,从 Opus 4.6 迁移至 4.7 时,有两个与 token 使用相关的变化需要关注。首先,Opus 4.7 使用了新的 tokenizer,在文本处理上更高效,但同一输入可能会映射为更多 token(约增加 1.0–1.35 倍,取决于内容类型)。其次,在更高推理强度下,尤其是在 agent 多轮任务的后期阶段,模型会进行更多推理,从而生成更多输出 token。这提升了复杂任务的可靠性,但也带来更高的 token 消耗。
用户可以通过调整 effort 参数、设置任务预算,或在 prompt 中要求更简洁的输出,来控制 token 使用。内部测试显示,总体效果是正向的:在一项内部编码评测中,各个推理强度档位下的 token 使用效率均有所提升。不过,仍建议在真实业务流量中进行实际测量。同时,Anthropic 也提供了迁移指南,帮助用户从 Opus 4.6 平滑升级到 Opus 4.7。

Claude Code 之父的使用心得
Boris Cherny(Claude Code 作者)在连续几周内部使用 Opus 4.7 后,给出了一组更偏“实战侧”的使用心得。整体感受很直接:生产力明显提升,同时也需要相应调整使用方式。
他总结了几个关键点:
首先是Auto mode(自动模式)。
Opus 4.7 非常擅长处理复杂、长时间运行的任务,比如深度研究、代码重构、复杂功能开发,或者反复迭代直到达到性能指标。过去要么需要全程盯着模型运行,要么只能使用 --dangerously-skip-permissions 这种风险较高的方式。
现在的自动模式提供了一个更安全的替代方案。在这个模式下,权限请求会被转交给一个基于模型的分类器判断是否安全执行,如果判定安全,就会自动放行。
这带来的变化不只是“可以不盯着看了”,更重要的是可以并行运行多个 Claude。一个任务跑起来之后,可以直接切去处理下一个 Claude。对于 Max、Teams 和 Enterprise 用户,Opus 4.7 已支持该模式,在 CLI 中可以通过 Shift + Tab 进入,或在桌面端、VSCode 的下拉菜单中选择。

第二是/fewer-permission-prompts 这个新 skill。
它会扫描整个会话历史,找出那些其实是安全的、但却反复触发权限提示的 bash 或 MCP 命令,然后推荐加入到 allowlist 中。
这个功能本质是在帮你“整理权限策略”,减少无意义的打断。如果不使用 auto mode,这个 skill 会非常实用。
第三是Recaps(回顾)。
这是一个看起来简单但很实用的功能:为每个 agent 生成一段简短总结,说明“刚刚做了什么”和“接下来要做什么”。
在处理长时间运行的任务时,隔几分钟甚至几小时再回来,这个功能能快速帮你恢复上下文。

第四是Focus mode(专注模式)。
CLI 里新增的这个模式会隐藏所有中间过程,只保留最终结果。
Boris 的说法是:模型已经进化到一个阶段,大多数情况下可以信任它会执行正确的命令、做出正确的修改,所以只需要看最终结果即可。通过 /focus 可以随时开关。

第五是调整 effort(推理强度)。
Opus 4.7 不再依赖固定的 thinking budget,而是改用自适应思考机制。想控制模型“想多少”,主要靠 effort 参数来调节。低 effort 响应更快、token 消耗更低,高 effort 则能换来更强的能力和更深的推理。
按照 Boris 的个人用法,大多数任务使用 xhigh,最难的任务才会上 max。需要注意的是,max 只对当前 session 生效,其他 effort 档位则会延续到后续 session。用户可以通过 /effort 来调整。

第六,也是他特别强调的一点:一定要给 Claude 一个“验证自己”的手段。
这一点一直可以把 Claude 的效果提升 2–3 倍,在 4.7 上更重要。验证方式会根据任务类型有所不同:做后端时,要让 Claude 能启动服务并完成端到端测试;做前端时,可以通过 Claude 的 Chromium 扩展让它直接控制浏览器;如果是桌面应用,则可以使用 computer use。
他现在很多 prompt 会写成类似“Claude 做某件事 /go”。这个 /go skill 会让 Claude 自动完成一整套流程:先通过 bash、浏览器或 computer use 做端到端自测,然后运行 /simplify skill,最后直接提交 PR。
对于长时间运行的任务来说,验证机制的意义在于,当你再次回到这个任务时,可以确认代码是确实可用的,而不是停留在一个“看起来已经完成”的状态。
他最后的意思是,Opus 4.7 的提升是明显的,但变化不只在模型本身,也在使用方式上。你如果还是沿用旧 workflow,当然也能感受到它比上一代更强;但只有把工作方式一起调过来,真正利用它“能跑更久、agent 性更强”的特点,这一代的差距才会被真正拉开。
参考资料:
https://www.anthropic.com/news/claude-opus-4-7
https://x.com/bcherny/status/
会议推荐
QCon 全球软件开发大会·2026 北京站将于 4 月 16 日 -18 日正式举办。本届大会以“Agentic AI 时代的软件工程重塑”为主题,聚焦 100+ 重磅议题,汇聚来自阿里、腾讯、字节跳动、小米、百度等一线科技企业与创新团队的技术专家,围绕 AI 工程化、系统架构与研发模式演进展开深入探讨。更多详情可扫码或联系票务经理 进行咨询。
今日荐文
你也「在看」吗?
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269392.html