从58%到70%+，Claude Opus 4.7实测：金融分析登顶，代码与多模态全面进化

科技前沿 • 2026-04-17 19:03 • 阅读 10

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

 Claude Opus 4.7 这次官方没有单独高调公布“参数量”，但公开了完整的产品规格和一组很强的测试结果。

它的升级重点不是堆参数，而是把软件工程、长任务、视觉与金融分析这几块明显往前推了一截。

项目 Claude Opus 4.7 模型定位 Anthropic 目前最强的通用可用模型，主打复杂推理和 agentic coding API 名称 claude-opus-4-7 价格 \(5 / 百万输入 token，\)25 / 百万输出 token，和 4.6 一样上下文窗口 1M tokens 最大输出 128k tokens 输入能力文本、图片；支持多语言和视觉能力图片上限可接受长边最高 2,576 像素，约 3.75MP，较前代显著提升新增控制项新增 xhigh effort level，介于 high 和 max 之间

随时测试全球最新的AI大模型和使用数据，挂羊头CDN - 全球加速解决方案

1）软件工程 / 编程：明显进步。
Anthropic 说，Opus 4.7 在一个 93 任务编码基准上，相比 Opus 4.6 解决率提升 13%，而且有 4 个任务是 4.6 和 Sonnet 4.6 都做不出来的。官方还提到它在复杂、长链路 coding workflow 上，中位延迟更低，而且指令遵循更严格。

2）多步骤 agent 任务：工具错误更少、完成度更高。
在 Notion 的反馈里，Opus 4.7 在复杂多步流程上比 4.6 提升 14%，同时 token 更少、tool errors 只有三分之一，而且它是第一个通过 implicit-need tests 的模型。

3）编码类第三方反馈：CursorBench 从 58% 提到 70% 以上。
Cursor 这边的说法是，Opus 4.7 在 CursorBench 上是一次“meaningful jump”，从 Opus 4.6 的 58% 提到 70%+。

4）金融分析：官方点名是“更有效的金融分析师”。
Anthropic 的内部研究代理评测里，Opus 4.7 在六个模块里 总分 0.715 并列最高；其中 General Finance 模块 0.813，对比 4.6 的 0.767。官方还直接写了：它在金融分析上比 4.6 更会做严谨分析、建模、做展示，也更能把不同任务串起来。

5）文档 / 法律 / 业务知识工作：GDPval-AA 上也被官方点名为 SOTA。
Anthropic 说 Opus 4.7 在 GDPval-AA 上是 state-of-the-art，这个评测覆盖 finance、legal 等经济价值较高的知识工作。

6）法务文档理解：BigLaw Bench 90.9%。
Harvey 给出的反馈里，Opus 4.7 在 BigLaw Bench 上以 90.9% 的成绩表现很强，尤其在 review tables、歧义文档编辑上更稳。

7）真实任务处理：Rakuten-SWE-Bench 3 倍 production tasks。
Rakuten 的反馈是，Opus 4.7 在 Rakuten-SWE-Bench 上能解决 3 倍更多 production tasks，并且 Code Quality、Test Quality 都有双位数提升。

8）视觉 / 电脑使用：高分辨率图像能力明显增强。
官方明确说，Opus 4.7 对高分辨率图片支持更强，长边可到 2,576 像素，适合 dense screenshots、复杂图表、pixel-level 参考这类任务。

官方对它的安全评估是：整体安全画像和 Opus 4.6 相近，但在 honesty 和 prompt injection 抵抗 上更好；同时在某些 harm-reduction advice 场景下又略弱一些。Anthropic 的结论是它“largely well-aligned and trustworthy, though not fully ideal”。

Opus 4.7 不是“更会聊天”的升级，而是更像一个能长期干活的高级工作模型：更强的 coding、更稳的 agent、多模态更细、金融和文档分析也更硬。

从58%到70%+，Claude Opus 4.7实测：金融分析登顶，代码与多模态全面进化

相关推荐