2026年Claude Opus 4.7正式发布

Claude Opus 4.7正式发布p 4 月 17 日 Anthropic 正式发布 Claude Opus 4 7 该公司在公告中坦诚表示 这并非其最强模型 更强的 Claude Mythos Preview 仍在测试阶段 但这款新版本凭借 靠谱 特质引发行业高度关注 即敢于反驳用户错误方案并主动解决问题的可靠性 p p 基准测试数据显示 4 7 在 SWE bench p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

4月17日,Anthropic正式发布Claude Opus 4.7。该公司在公告中坦诚表示,这并非其最强模型,更强的Claude Mythos Preview仍在测试阶段。但这款新版本凭借“靠谱”特质引发行业高度关注——即敢于反驳用户错误方案并主动解决问题的可靠性。

基准测试数据显示,4.7在SWE-bench Pro编程测试中得分从53.4%跃升至64.3%,单代提升近11个百分点,超越GPT-5.4的57.7%和Gemini 3.1 Pro的54.2%。视觉推理方面,CharXiv基准从69.1%提升至82.1%,得益于新支持的2576像素长边识别能力,清晰度达前代3倍以上。工具调用规模化评测MCP-Atlas上,4.7以77.3%超过GPT-5.4的68.1%和Gemini的73.9%。法律AI平台Harvey测试中,4.7在BigLaw基准取得90.9%,正确区分了“转让条款”与“控制权变更条款”。

但在Agentic search评测BrowseComp上,4.7得分从83.7%降至79.3%,被GPT-5.4的89.3%和Gemini的85.9%超越。Anthropic解释称,这是因为4.7遇到缺失信息会直接报错而非编造答案,在以“是否给出答案”为评判标准的测试中处于劣势。

实际工作流测试显示,4.7展现出“拒绝顺从”的特质。Replit负责人称其“在技术讨论中会反驳我,帮我做出更好的决定”。Hex团队测试发现,4.7遇到缺失数据时会直接报错,而非像前代那样填充错误备选值,且低消耗状态下的4.7等同于中等消耗状态下的4.6。Notion团队测试表明,4.7工具错误率降至前代三分之一,能在工具链崩溃时自主绕过障碍继续完成任务。

Anthropic公布的极端案例中,4.7在无人工干预情况下从零构建完整Rust文本转语音引擎,包括神经网络模型、SIMD内核和浏览器演示,并自主完成测试验证。Vercel发现4.7会在编写系统级代码前自行进行数学证明。

定价方面,Opus 4.7基础定价维持每百万输入5美元、输出25美元不变。但新版本引入全新分词器,同文本拆分Token数量比前代多1.0至1.35倍,叠加高强度任务中“多想一会儿”的倾向,实际消耗必然上升。Anthropic新增xhigh超高难度级别,Claude Code已将所有套餐默认effort level调至xhigh。

Claude Code同步推出两项功能:/ultrareview深度审查功能,可开启专门会话审查代码更改,Pro和Max用户可免费试用三次;Auto Mode自动模式扩展至Max用户,允许Claude在授权范围内自主决策。API端推出Task Budgets任务预算功能公测版,供开发者规划长任务Token支出。

Claude Mythos Preview本月以Project Glasswing名义小范围开放给企业用于网络安全研究,因网络攻防能力过强尚未公开发布。4.7训练阶段主动压低网络攻防能力并内置拦截机制,有合规需求的安全研究人员可通过官方渠道单独申请。

今年2月1日至3月24日的52天内,Anthropic共更新74款产品,平均不到两天一个。Claude Opus 4.7已在所有Claude产品、API、Amazon Bedrock、Google Cloud Vertex AI及Microsoft Foundry平台上线。(爱范儿)

小讯
上一篇 2026-04-22 17:50
下一篇 2026-04-22 17:48

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/277852.html