OpenAI 于 2026 年 3 月 5 日正式发布
GPT-5.4,这是其迄今为止能力最强、效率最高的前沿模型,将
高级推理、代码生成与智能体工作流深度融合为统一系统。
该模型已陆续登陆 ChatGPT(以
GPT-5.4 Thinking 形态)、API 及 Codex 平台,并面向需要海量算力处理复杂任务的用户,推出更高性能的
GPT-5.4 Pro 版本。
GPT-5.4 整合了此前分散在多个专用模型中的能力,将
GPT-5.3-Codex 业界领先的编码优势与
增强的通用推理能力、
原生计算机操作能力融为一体。
这使得该模型可支撑
端到端的专业工作流,从表格、演示文稿到复杂多步智能体任务,大幅减少用户的反复交互。
在 ChatGPT 中,
GPT-5.4 Thinking 新增
前置推理规划机制,允许用户在生成过程中直接打断、引导模型,无需重新开始,从而输出更精准、更贴合上下文的结果。这种
实时可控性是与前代推理模型的显著区别 —— 以往中途修正往往需要完全重启。
GPT-5..4 在多项关键行业基准测试中刷新最优成绩:
评测基准 GPT-5.4 GPT-5.3-Codex GPT-5.2 GDPval(胜率或持平) 83.0% 70.9% 70.9% SWE-Bench Pro(公开) 57.7% 56.8% 55.6% OSWorld-Verified 75.0% 74.0% 47.3% Toolathlon 54.6% 51.9% 46.3% BrowseComp 82.7% 77.3% 65.8%
在覆盖美国 GDP 前 9 大行业、共 44 种职业的
GDPval 测试中,GPT-5.4 在
83% 的对比中达到或超过行业专业人员水平,较 GPT-5.2 的 70.9% 大幅提升。
据法律 AI 公司 Harvey 应用研究主管 Niko Grupen 透露,在面向法律文档的
BigLaw Bench 评测中,该模型得分达到
91%。
GPT-5.4 是 OpenAI 首个具备
原生计算机操作能力的通用大模型,支持智能体通过
截图、鼠标指令、键盘输入直接与软件交互。
在
OSWorld-Verified 环境中,其成功率达
75.0%,超过人类基准 72.4%,更远超 GPT-5.2 的 47.3%。
在
WebArena-Verified 环境中,GPT-5.4 浏览器操作成功率为
67.3%;仅依靠截图观察的
Online-Mind2Web 任务中,得分高达
92.8%。
该模型 API 还支持
100 万 tokens 上下文窗口,可支撑大规模智能体长周期任务,与谷歌、Anthropic 等厂商的上下文能力持平。
OpenAI 强调,GPT-5.4 是
事实准确性最高的一代模型:与 GPT-5.2 相比,
单条陈述错误率下降 33%,
完整回复错误率下降 18%。
该模型同时实现
显著的 token 效率提升,解决相同推理问题消耗更少 token,直接降低企业开发者的 API 成本并加快响应速度。
在实际生产环境中,Mainstay 公司 CEO Dod Fraser 表示,GPT-5.4 在近 3 万个房产门户任务中
首次尝试成功率达 95%,完成速度提升 3 倍,token 消耗较前代计算机操作模型减少
70%。
GPT-5.4 Thinking 现已向 ChatGPT Plus、Team、Pro 订阅用户开放,并将在未来三个月内逐步取代 GPT-5.2 Thinking。开发者可通过 OpenAI API 调用 GPT-5.4 与 GPT-5.4 Pro,生产环境支持优先处理,实现更快 token 生成速度。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/215174.html