OpenAI 发布 GPT-5.4:开启原生电脑操控新时代,知识工作表现超越人类 83%
2026年3月6日 — OpenAI 正式推出划时代旗舰模型 GPT-5.4,同步发布 GPT-5.4 Thinking 与 GPT-5.4 Pro 双版本,标志着人工智能迈入“自主执行”新纪元。此次升级首次整合推理、编程、原生计算机操作、深度网页搜索与百万 Token 上下文能力,使其进化为专业级工作系统。
首创原生电脑操控,OSWorld 测试胜率 75%,超越人类基准
GPT-5.4 是 OpenAI 首个具备原生、SOTA 级别计算机操作能力的通用模型。在 OSWorld-Verified 测试中,其 75.0% 的任务完成率首次超越人类 72.4% 的平均表现。
它可通过分析截图理解界面,精准执行键鼠操作,自主完成邮件发送、表单填写等跨应用任务。WebArena-Verified 测试成功率 67.3%,Online-Mind2Web 测试成功率高达 92.8%。
知识工作全面突破:GDPval 胜率 83%,幻觉率下降 33%
在覆盖 44 个职业领域的 GDPval 测试中,GPT-5.4 83.0% 的项目超越人类专家,较前代显著提升。金融建模平均得分 87.3%,演示文稿生成获 68.0% 评审者青睐。
同时,其单陈述错误率降低 33%,完整回答出错概率下降 18%,成为 OpenAI 历来最“可靠”的模型。
交互革新:支持实时打断与动态调整,思维过程更透明
GPT-5.4 Thinking 呈现初步行动计划,支持用户中途干预调整,实现“边想边做”。该版本优化深度研究能力,即日起向 Plus、团队及 Pro 用户开放,GPT-5.2 Thinking 将保留至6月5日。
技术底座:百万 Token 上下文 + 智能工具搜索
GPT-5.4 实验性支持 100 万 Token 上下文,可处理完整代码仓库。全新 Tool Search 架构让模型动态检索工具,连接 36 个 MCP 服务器时,Token 消耗骤降 47%。
应用落地:ChatGPT for Excel 上线,赋能金融与数据分析
OpenAI 推出 ChatGPT for Excel(测试版),支持在表格中调用模型完成数据建模、公式生成等操作,已面向美、加、澳指定用户开放,Google Sheets 版本后续推出。
订阅与定价
ChatGPT 订阅:
Plus / Business:含 GPT-5.4 Thinking,每周 3000 次额度。
Pro:含 GPT-5.4 Pro,不限量使用。
API 定价(按 Token 计费):
GPT-5.4:输入 \(2.50/百万,输出 \)15/百万。
GPT-5.4 Pro:输入 \(30/百万,输出 \)180/百万。
时代转折:从对话工具到操作系统级AI
GPT-5.4 的发布实现范式变革,大模型从“辅助应答”走向“自主执行”,成为知识工作与数字操作的底层基础设施,重新定义“智能”边界。
#GPT5.4# #OpwnAI# #AI原生电脑操控# #AI自主执行# #AI知识工作# #ai办公# #大模型升级# #AI技术# #AI开放计算# #ai4cfd# #openai5# #AI远程工作# #aip原理# #ChatGPT问答#
2026年3月6日 — OpenAI 正式推出划时代旗舰模型 GPT-5.4,同步发布 GPT-5.4 Thinking 与 GPT-5.4 Pro 双版本,标志着人工智能迈入“自主执行”新纪元。此次升级首次整合推理、编程、原生计算机操作、深度网页搜索与百万 Token 上下文能力,使其进化为专业级工作系统。
首创原生电脑操控,OSWorld 测试胜率 75%,超越人类基准
GPT-5.4 是 OpenAI 首个具备原生、SOTA 级别计算机操作能力的通用模型。在 OSWorld-Verified 测试中,其 75.0% 的任务完成率首次超越人类 72.4% 的平均表现。
它可通过分析截图理解界面,精准执行键鼠操作,自主完成邮件发送、表单填写等跨应用任务。WebArena-Verified 测试成功率 67.3%,Online-Mind2Web 测试成功率高达 92.8%。
知识工作全面突破:GDPval 胜率 83%,幻觉率下降 33%
在覆盖 44 个职业领域的 GDPval 测试中,GPT-5.4 83.0% 的项目超越人类专家,较前代显著提升。金融建模平均得分 87.3%,演示文稿生成获 68.0% 评审者青睐。
同时,其单陈述错误率降低 33%,完整回答出错概率下降 18%,成为 OpenAI 历来最“可靠”的模型。
交互革新:支持实时打断与动态调整,思维过程更透明
GPT-5.4 Thinking 呈现初步行动计划,支持用户中途干预调整,实现“边想边做”。该版本优化深度研究能力,即日起向 Plus、团队及 Pro 用户开放,GPT-5.2 Thinking 将保留至6月5日。
技术底座:百万 Token 上下文 + 智能工具搜索
GPT-5.4 实验性支持 100 万 Token 上下文,可处理完整代码仓库。全新 Tool Search 架构让模型动态检索工具,连接 36 个 MCP 服务器时,Token 消耗骤降 47%。
应用落地:ChatGPT for Excel 上线,赋能金融与数据分析
OpenAI 推出 ChatGPT for Excel(测试版),支持在表格中调用模型完成数据建模、公式生成等操作,已面向美、加、澳指定用户开放,Google Sheets 版本后续推出。
订阅与定价
ChatGPT 订阅:
Plus / Business:含 GPT-5.4 Thinking,每周 3000 次额度。
Pro:含 GPT-5.4 Pro,不限量使用。
API 定价(按 Token 计费):
GPT-5.4:输入 \(2.50/百万,输出 \)15/百万。
GPT-5.4 Pro:输入 \(30/百万,输出 \)180/百万。
时代转折:从对话工具到操作系统级AI
GPT-5.4 的发布实现范式变革,大模型从“辅助应答”走向“自主执行”,成为知识工作与数字操作的底层基础设施,重新定义“智能”边界。
#GPT5.4# #OpwnAI# #AI原生电脑操控# #AI自主执行# #AI知识工作# #ai办公# #大模型升级# #AI技术# #AI开放计算# #ai4cfd# #openai5# #AI远程工作# #aip原理# #ChatGPT问答#
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/209156.html