OpenAI 正式发布 GPT-5.4 系列模型,原生电脑操控能力超越人类
3月6日,OpenAI 正式推出 GPT-5.4 系列模型,包含面向 ChatGPT 的 GPT-5.4 Thinking 及专业级 GPT-5.4 Pro 版本,首次整合推理、编码与智能体能力,标志着 AI 从“对话工具”向“自动化数字代理”跨越。
核心亮点是原生计算机操控能力:无需外挂工具,通过截图识别和键鼠指令,可完成跨 Windows、macOS、Ubuntu 系统的实操任务,覆盖打开应用、填写表单等场景。
基准测试显示其表现超人类平均水平:OSWorld-Verified 桌面操控成功率 75.0%(超人类 72.4%、前代 47.3%),Online-Mind2Web 网页操作成功率达 92.8%。
专业领域同样突破:GDPval 基准测试中 83.0% 项目达专业水平(前代 70.9%),投行级表格建模得分 87.3%,演示文稿作品获 68.0% 人类评审认可。
事实准确性显著提升,单个陈述错误率较前代降低 33%,有效缓解 AI“幻觉”,适配法律、金融等高精度场景。
此外,GPT-5.4 Thinking 新增“思考过程预览”功能,支持 100 万 tokens 上下文,编码延迟更低;工具生态优化后,token 消耗减少 47%,网络搜索能力提升 17 个百分点。
目前 GPT-5.4 Thinking 已向 ChatGPT 付费用户开放,替代前代模型(2026年6月退役),API 端同步上线对应接口,定价兼顾效率与差异化需求。
业内认为,该系列模型有望重构专业工作流程,推动 AI 成为可独立完成复杂任务的“数字员工”,在多领域广泛应用。
3月6日,OpenAI 正式推出 GPT-5.4 系列模型,包含面向 ChatGPT 的 GPT-5.4 Thinking 及专业级 GPT-5.4 Pro 版本,首次整合推理、编码与智能体能力,标志着 AI 从“对话工具”向“自动化数字代理”跨越。
核心亮点是原生计算机操控能力:无需外挂工具,通过截图识别和键鼠指令,可完成跨 Windows、macOS、Ubuntu 系统的实操任务,覆盖打开应用、填写表单等场景。
基准测试显示其表现超人类平均水平:OSWorld-Verified 桌面操控成功率 75.0%(超人类 72.4%、前代 47.3%),Online-Mind2Web 网页操作成功率达 92.8%。
专业领域同样突破:GDPval 基准测试中 83.0% 项目达专业水平(前代 70.9%),投行级表格建模得分 87.3%,演示文稿作品获 68.0% 人类评审认可。
事实准确性显著提升,单个陈述错误率较前代降低 33%,有效缓解 AI“幻觉”,适配法律、金融等高精度场景。
此外,GPT-5.4 Thinking 新增“思考过程预览”功能,支持 100 万 tokens 上下文,编码延迟更低;工具生态优化后,token 消耗减少 47%,网络搜索能力提升 17 个百分点。
目前 GPT-5.4 Thinking 已向 ChatGPT 付费用户开放,替代前代模型(2026年6月退役),API 端同步上线对应接口,定价兼顾效率与差异化需求。
业内认为,该系列模型有望重构专业工作流程,推动 AI 成为可独立完成复杂任务的“数字员工”,在多领域广泛应用。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/209235.html