2026年OpenAI发布GPT-5.4大模型，具备更强推理、编码与计算机操作能力

科技前沿 • 2026-03-12 20:36 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4，这是其迄今为止能力最强、效率最高的前沿模型，将 高级推理、代码生成与智能体工作流深度融合为统一系统。

该模型已陆续登陆 ChatGPT（以 GPT-5.4 Thinking 形态）、API 及 Codex 平台，并面向需要海量算力处理复杂任务的用户，推出更高性能的 GPT-5.4 Pro 版本。

GPT-5.4 整合了此前分散在多个专用模型中的能力，将 GPT-5.3-Codex 业界领先的编码优势与 增强的通用推理能力、 原生计算机操作能力融为一体。

这使得该模型可支撑 端到端的专业工作流，从表格、演示文稿到复杂多步智能体任务，大幅减少用户的反复交互。

在 ChatGPT 中， GPT-5.4 Thinking 新增 前置推理规划机制，允许用户在生成过程中直接打断、引导模型，无需重新开始，从而输出更精准、更贴合上下文的结果。这种 实时可控性是与前代推理模型的显著区别 —— 以往中途修正往往需要完全重启。

GPT-5..4 在多项关键行业基准测试中刷新最优成绩：

评测基准 GPT-5.4 GPT-5.3-Codex GPT-5.2 GDPval（胜率或持平） 83.0% 70.9% 70.9% SWE-Bench Pro（公开） 57.7% 56.8% 55.6% OSWorld-Verified 75.0% 74.0% 47.3% Toolathlon 54.6% 51.9% 46.3% BrowseComp 82.7% 77.3% 65.8%

在覆盖美国 GDP 前 9 大行业、共 44 种职业的 GDPval 测试中，GPT-5.4 在 83% 的对比中达到或超过行业专业人员水平，较 GPT-5.2 的 70.9% 大幅提升。

据法律 AI 公司 Harvey 应用研究主管 Niko Grupen 透露，在面向法律文档的 BigLaw Bench 评测中，该模型得分达到 91%。

GPT-5.4 是 OpenAI 首个具备 原生计算机操作能力的通用大模型，支持智能体通过 截图、鼠标指令、键盘输入直接与软件交互。

在 OSWorld-Verified 环境中，其成功率达 75.0%，超过人类基准 72.4%，更远超 GPT-5.2 的 47.3%。

在 WebArena-Verified 环境中，GPT-5.4 浏览器操作成功率为 67.3%；仅依靠截图观察的 Online-Mind2Web 任务中，得分高达 92.8%。

该模型 API 还支持 100 万 tokens 上下文窗口，可支撑大规模智能体长周期任务，与谷歌、Anthropic 等厂商的上下文能力持平。

OpenAI 强调，GPT-5.4 是 事实准确性最高的一代模型：与 GPT-5.2 相比， 单条陈述错误率下降 33%， 完整回复错误率下降 18%。

该模型同时实现 显著的 token 效率提升，解决相同推理问题消耗更少 token，直接降低企业开发者的 API 成本并加快响应速度。

在实际生产环境中，Mainstay 公司 CEO Dod Fraser 表示，GPT-5.4 在近 3 万个房产门户任务中 首次尝试成功率达 95%，完成速度提升 3 倍，token 消耗较前代计算机操作模型减少 70%。

GPT-5.4 Thinking 现已向 ChatGPT Plus、Team、Pro 订阅用户开放，并将在未来三个月内逐步取代 GPT-5.2 Thinking。开发者可通过 OpenAI API 调用 GPT-5.4 与 GPT-5.4 Pro，生产环境支持优先处理，实现更快 token 生成速度。

2026年OpenAI发布GPT-5.4大模型，具备更强推理、编码与计算机操作能力

相关推荐