2026年Claude Opus 4.7发布:靠谱超越聪明,多项测试领先但也有短板

Claude Opus 4.7发布:靠谱超越聪明,多项测试领先但也有短板p style margin left 0 margin right 0 text align center p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

Anthropic势头正猛,Claude Opus 4.7发布

今年Anthropic的势头异常凶猛,热度居高不下,口碑持续攀升,稳坐AI圈「顶流」交椅。现在几乎每天都能看到他们推送的新产品或新功能,大家也从兴奋有了默契感。刚刚,万众期待的Claude Opus 4.7正式发布,Anthropic在公告里称其「并非最强大的模型」,传说中的Claude Mythos Preview仍未发布。

Opus 4.7解决靠谱痛点,测试成绩亮眼

Opus 4.7引发极大关注,因为它解决了比聪明更重要的靠谱痛点,即能反驳愚蠢方案并解决问题。基准测试结果显示,在SWE - bench Pro上,Opus 4.7从前代的53.4%提升到64.3%,超越GPT - 5.4(57.7%)和Gemini 3.1 Pro(54.2%);视觉推理的CharXiv基准从69.1%跳到82.1%,获得2576像素长边识别能力,清晰度是前代3倍以上,带动输出质量提升;工具调用规模化评测MCP - Atlas上,Opus 4.7跑出77.3%,超过GPT - 5.4的68.1%和Gemini的73.9%;法律AI平台Harvey测试中,Opus 4.7在BigLaw基准上拿下90.9%,正确区分转让条款与控制权变更条款。不过,在Agentic search评测BrowseComp上,Opus 4.7从前代的83.7%下降到79.3%,被GPT - 5.4(89.3%)和Gemini(85.9%)超越,这是因为其遇到缺失信息会直接报错、不肯乱编答案。

靠谱在真实工作中的意义

业界过去对代码大模型的期待较浅,但Claude Opus 4.7在早期测试中展现不同气质。知名云端开发平台Replit称它在技术讨论中会反驳,像更好的同事;在数据科学平台Hex的测试里,它遇到缺失数据会直接报错。这种拒绝顺从的特质是高级软件工程里稀缺的。当然,为旧模型写的prompt到了Opus 4.7手里结果可能不同,越能清楚表达需求的人越能获得好结果。

Opus 4.7的任务韧性亮点

Opus 4.7的另一个亮点是任务韧性。以往大模型在多步任务中工具调用失败会停机报错,Notion团队测试发现,Opus 4.7的工具错误率降到原来的三分之一,能在工具链崩溃时绕过障碍完成任务。Anthropic公布案例显示,Opus 4.7能在无人类干预下从零构建完整的Rust文本转语音引擎,还完成测试;前端框架巨头Vercel发现它写系统级代码前会先进行数学证明。

验证细节处理能力的场景测试

为验证Opus 4.7的细节处理能力,设定三个交互场景。第一个场景是做俯视视角黑胶唱片机界面,它通过复杂CSS样式叠加还原金属质感;第二个场景是只用CSS做老式电风扇,它遵守规则,用纯CSS做出立体结构,档位过渡流畅,底座处理有实物感;第三个场景是做复古磁带随身听,有磁带转动细节。

Opus 4.7的使用代价与新功能

Opus 4.7已在Claude产品和API、Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry平台推出。基础定价不变,但引入全新分词器,同样文本拆分出的Token比原来多1.0到1.35倍,且在高强度任务中更耗时,实际消耗必然上升。Anthropic加入全新xhigh(超高)难度级别,Claude Code默认effort level拉到xhigh。为匹配工作流,Claude Code推出两个功能:/ultrareview(深度审查),Pro和Max用户可免费试用三次;Auto Mode(自动模式)扩展到Max用户。API端还推出「任务预算」(Task Budgets)功能公测版。

最强模型与交付节奏

Opus 4.7不是Anthropic最强的牌,更强的Claude Mythos Preview本月以「Project Glasswing」名义小范围开放给企业用于网络安全研究,因其网络攻防能力强,Anthropic未公开发布。Opus 4.7训练阶段压低网络攻防能力,内置自动拦截机制,有合规需求的安全研究人员可单独申请。实际上,Anthropic真正的护城河是交付节奏,今年2月1日至3月24日,52天更新74款产品,击中职场办公痛点。如今Claude生态超越单纯聊天机器人,稳定、高频且可预期的更新节奏让团队踏实,Claude Opus 4.7是链条上新的压舱石,Mythos Preview迟早亮相,Opus 4.7可能只是开端。

小讯
上一篇 2026-04-18 21:39
下一篇 2026-04-18 21:37

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269422.html