Claude Opus 4.7 这次官方没有单独高调公布“参数量”,但公开了完整的产品规格和一组很强的测试结果。
它的升级重点不是堆参数,而是把软件工程、长任务、视觉与金融分析这几块明显往前推了一截。
claude-opus-4-7 价格
\(5 / 百万输入 token,\)25 / 百万输出 token,和 4.6 一样 上下文窗口 1M tokens 最大输出 128k tokens 输入能力 文本、图片;支持多语言和视觉能力 图片上限 可接受长边最高 2,576 像素,约 3.75MP,较前代显著提升 新增控制项 新增
xhigh effort level,介于
high 和
max 之间
随时测试全球最新的AI大模型和使用数据,挂羊头CDN - 全球加速解决方案
1)软件工程 / 编程:明显进步。
Anthropic 说,Opus 4.7 在一个 93 任务编码基准上,相比 Opus 4.6 解决率提升 13%,而且有 4 个任务是 4.6 和 Sonnet 4.6 都做不出来的。官方还提到它在复杂、长链路 coding workflow 上,中位延迟更低,而且指令遵循更严格。
2)多步骤 agent 任务:工具错误更少、完成度更高。
在 Notion 的反馈里,Opus 4.7 在复杂多步流程上比 4.6 提升 14%,同时 token 更少、tool errors 只有三分之一,而且它是第一个通过 implicit-need tests 的模型。
3)编码类第三方反馈:CursorBench 从 58% 提到 70% 以上。
Cursor 这边的说法是,Opus 4.7 在 CursorBench 上是一次“meaningful jump”,从 Opus 4.6 的 58% 提到 70%+。
4)金融分析:官方点名是“更有效的金融分析师”。
Anthropic 的内部研究代理评测里,Opus 4.7 在六个模块里 总分 0.715 并列最高;其中 General Finance 模块 0.813,对比 4.6 的 0.767。官方还直接写了:它在金融分析上比 4.6 更会做严谨分析、建模、做展示,也更能把不同任务串起来。
5)文档 / 法律 / 业务知识工作:GDPval-AA 上也被官方点名为 SOTA。
Anthropic 说 Opus 4.7 在 GDPval-AA 上是 state-of-the-art,这个评测覆盖 finance、legal 等经济价值较高的知识工作。
6)法务文档理解:BigLaw Bench 90.9%。
Harvey 给出的反馈里,Opus 4.7 在 BigLaw Bench 上以 90.9% 的成绩表现很强,尤其在 review tables、歧义文档编辑上更稳。
7)真实任务处理:Rakuten-SWE-Bench 3 倍 production tasks。
Rakuten 的反馈是,Opus 4.7 在 Rakuten-SWE-Bench 上能解决 3 倍更多 production tasks,并且 Code Quality、Test Quality 都有双位数提升。
8)视觉 / 电脑使用:高分辨率图像能力明显增强。
官方明确说,Opus 4.7 对高分辨率图片支持更强,长边可到 2,576 像素,适合 dense screenshots、复杂图表、pixel-level 参考这类任务。
官方对它的安全评估是:整体安全画像和 Opus 4.6 相近,但在 honesty 和 prompt injection 抵抗 上更好;同时在某些 harm-reduction advice 场景下又略弱一些。Anthropic 的结论是它“largely well-aligned and trustworthy, though not fully ideal”。
Opus 4.7 不是“更会聊天”的升级,而是更像一个能长期干活的高级工作模型:更强的 coding、更稳的 agent、多模态更细、金融和文档分析也更硬。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/268374.html