2026年OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家

OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家p data vmark 78a4 3 月 6 日消息 OpenAI 今日正式发布了 GPT 5 4 系列模型 包括面向 ChatGPT 和 API 的 GPT 5 4 Thinking 版本 以及面向复杂任务的 GPT 5 4 Pro 版本 p p data vmark 0007 这是 p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 <p data-vmark="78a4"> 3 月 6 日消息,OpenAI 今日正式发布了 GPT-5.4 系列模型,包括面向 ChatGPT 和 API 的 GPT-5.4 Thinking 版本,以及面向复杂任务的 GPT-5.4 Pro 版本。</p><p data-vmark="0007">这是 OpenAI 首次将前沿推理、编码和智能体能力整合至单一模型中,旨在提升专业工作的效率和准确性。</p><p data-vmark="9566" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/67bdc14f-545b-456f-8545-ef65c11d4951.png?x-bce-process=image/format,f_auto" w="533" h="732" data-vmark="6d28" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/67bdc14f-545b-456f-8545-ef65c11d4951.png?x-bce-process=image/format,f_auto" width="533" height="732"></p><p data-vmark="52e9">在 ChatGPT 中,GPT-5.4 Thinking 新增“思考过程预览”功能,模型会在处理复杂查询时预先展示其推理思路,用户可在模型响应过程中实时调整方向,从而减少来回沟通,更快获得符合需求的结果。IT之家从官方获悉,该功能已在网页版和 应用上线,iOS 版本即将推出。</p><p data-vmark="038c" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/057ff0fe-3097-4ab3-826a-e45ac637adeb.jpg?x-bce-process=image/format,f_auto" w="680" h="383" data-vmark="3142" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/057ff0fe-3097-4ab3-826a-e45ac637adeb.jpg?x-bce-process=image/format,f_auto" width="680" height="383"></p><p data-vmark="ebba">新模型还增强了深度网络研究能力,特别是在处理高度具体的查询时,能够更好地保持长上下文连贯性。对于需要较长时间思考的问题,GPT-5.4 Thinking 可维持对对话前序步骤的更强意识,确保答案在整个过程中保持相关性和连贯性。</p><p data-vmark="396f">在 Codex 和 API 层面,GPT-5.4 是 OpenAI 首个具备原生计算机使用能力(computer-use capabilities)的通用模型,支持通过截图和键盘鼠标指令操作计算机,完成跨应用的复杂工作流程。</p><p data-vmark="5512">GPT-5.4 系列模型支持高达 100 万 tokens 的上下文窗口,使智能体能够规划、执行和验证长周期任务。</p><p data-vmark="afc0">据介绍,GPT-5.4 在专业工作领域实现了大幅突破。在 OpenAI 所测试的 44 个职业领域的 GDPval 基准中,GPT-5.4 在 83.0% 项目上可达到或超过行业专业水平,而前代 GPT-5.2 为 70.9%。</p><p data-vmark="c81b" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/5b-a17b-4a04-acb7-ea662abb8a34.png?x-bce-process=image/format,f_auto" w="540" h="380" data-vmark="6bd9" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/5b-a17b-4a04-acb7-ea662abb8a34.png?x-bce-process=image/format,f_auto" width="540" height="380"></p><p data-vmark="8352">在内部投行级电子表格建模任务测试中,GPT-5.4 的平均得分为 87.3%,远高于 GPT-5.2 的 68.4%。在演示文稿评估中,评审者更偏好 GPT-5.4 生成的演示文稿(68.0% vs. GPT-5.2 的 32.0%),主要优势在于更强的美学设计、更丰富的视觉变化以及更有效的图像生成运用。</p><p data-vmark="16c5" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/37b5eae1-36e6-4921-86df-c64724.png?x-bce-process=image/format,f_auto" w="1440" h="541" data-vmark="a1d5" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/37b5eae1-36e6-4921-86df-c64724.png?x-bce-process=image/format,f_auto" width="1440" height="308"></p><p data-vmark="765d">在减少错误方面,GPT-5.4 已成为 OpenAI 迄今为止最“ factual”的模型。相比 GPT-5.2,其单个陈述的错误率降低 33%,完整回答中出现任一错误的可能性降低 18%。</p><p data-vmark="b281">GPT-5.4 在计算机使用基准测试中表现优异。在 OSWorld-Verified 基准(通过截图和键盘鼠标操作 PC 桌面环境)上,GPT-5.4 实现了 75.0% 的成功率,远超 GPT-5.2 的 47.3%,甚至超过人类表现(72.4%)。</p><p data-vmark="c731" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/c4057abb-7002-4276-bd47-fe00cc82492d.png?x-bce-process=image/format,f_auto" w="523" h="387" data-vmark="70dc" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/c4057abb-7002-4276-bd47-fe00cc82492d.png?x-bce-process=image/format,f_auto" width="523" height="387"></p><p data-vmark="bdee">在 WebArena-Verified 浏览器使用测试中,GPT-5.4 结合 DOM 和截图驱动交互时成功率达 67.3%(GPT-5.2 为 65.4%);在 Online-Mind2Web 测试中,其仅凭观察截图即可实现 92.8% 的成功率,显著高于 ChatGPT Atlas 智能体模式的 70.9%。</p><p data-vmark="b9f4" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/f73e52ee-f000-4c49-bd86-35bcd7422fe7.png?x-bce-process=image/format,f_auto" w="1440" h="810" data-vmark="d055" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/f73e52ee-f000-4c49-bd86-35bcd7422fe7.png?x-bce-process=image/format,f_auto" width="1440" height="461"></p><p data-vmark="c97f">视觉感知能力方面,GPT-5.4 在 MMMU-Pro 视觉理解与推理测试中取得 81.2% 的成功率,优于 GPT-5.2 的 79.5%。在 OmniDocBench 文档解析测试中,GPT-5.4 的平均错误率降至 0.109(GPT-5.2 为 0.140)。</p><p data-vmark="8403" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/48d83189-a4ec-4a0d-b398-0.png?x-bce-process=image/format,f_auto" w="520" h="323" data-vmark="aba7" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/48d83189-a4ec-4a0d-b398-0.png?x-bce-process=image/format,f_auto" width="520" height="323"></p><p data-vmark="fc46">另外,GPT-5.4 还融合了 GPT-5.3-Codex 的编码优势,在 SWE-Bench Pro 基准上与之持平或表现更优,同时延迟更低。Codex 中的“/fast”模式可提升 1.5 倍 token 速度,保持同等智能水平。</p><p data-vmark="d56b" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/c6b2166e-4b42-4231-a334-cb9fc44ba50c.png?x-bce-process=image/format,f_auto" w="553" h="390" data-vmark="e21b" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/c6b2166e-4b42-4231-a334-cb9fc44ba50c.png?x-bce-process=image/format,f_auto" width="553" height="390"></p><p data-vmark="3618">5.4 新增的“工具搜索”(tool search)功能使该系列模型能够高效处理各种工具。在 Scale 的 MCP Atlas 基准测试中,启用工具搜索后,在保持相同准确率的前提下,其总 token 消耗量减少 47%。同时,GPT-5.4 在 Toolathlon 基准(测试智能体使用真实世界工具和 API 完成多步骤任务的能力)上,它也能用更少的交互轮次实现更高准确率。</p><p data-vmark="4f9d" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/a7dd1737-0149-4e19-b90e-0a08a0efb6e4.png?x-bce-process=image/format,f_auto" w="539" h="265" data-vmark="dae3" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/a7dd1737-0149-4e19-b90e-0a08a0efb6e4.png?x-bce-process=image/format,f_auto" width="539" height="265"></p><p data-vmark="11c4">同时,GPT-5.4 网络搜索能力也得到增强。在 BrowseComp 基准(测试智能体持续浏览网络寻找难以定位信息的能力)上,GPT-5.4 性能较 GPT-5.2 提升了 17 个百分点,而 GPT-5.4 Pro 更是创下了 89.3% 的新高。</p><p data-vmark="f17e" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/161a8b0b-2e5f-472b-b66f-4270d9bfc9ea.png?x-bce-process=image/format,f_auto" w="426" h="339" data-vmark="6d02" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/161a8b0b-2e5f-472b-b66f-4270d9bfc9ea.png?x-bce-process=image/format,f_auto" width="426" height="339"></p><p data-vmark="154d">OpenAI 表示,GPT-5.4 延续了 GPT-5.3-Codex 的安全防护措施,并引入新的开源评估“CoT 可控性”(CoT controllability),测试发现 GPT-5.4 Thinking 控制其思维链的能力较低,这有利于安全监控。</p><p data-vmark="13ea" style="text-align: center;"><img src="https://img.ithome.com/newsuploadfiles/2026/3/2d51cba6-e562-4ecd-88dd-fb34e.png?x-bce-process=image/format,f_auto" w="529" h="349" data-vmark="189e" class="lazy" title="OpenAI 最强模型 GPT-5.4 正式登场:原生支持计算机操控,编码能力超前代,专业知识工作表现接近人类专家" data-original="https://img.ithome.com/newsuploadfiles/2026/3/2d51cba6-e562-4ecd-88dd-fb34e.png?x-bce-process=image/format,f_auto" width="529" height="349"></p><p data-vmark="feca">在定价方面,GPT-5.4 API 的每 token 价格高于 GPT-5.2,但其更高的 token 效率可降低许多任务的总 token 消耗。批量处理(Batch)和 Flex 定价为标准 API 费率的一半,优先处理(Priority)为两倍。</p><p data-vmark="3d50">GPT-5.4 Thinking 即日起面向 ChatGPT Plus、Team 和 Pro 用户开放,取代 GPT-5.2 Thinking。GPT-5.2 Thinking 将在模型选择器的“遗留模型”部分保留三个月,直至 2026 年 6 月 5 日退役。Enterprise 和 Edu 计划用户可通过管理员设置启用早期访问。GPT-5.4 Pro 面向 Pro 和 Enterprise 计划用户开放。</p><p data-vmark="98da">在 API 中,GPT-5.4 将以 gpt-5.4 名称提供支持,GPT-5.4 Pro 则以 gpt-5.4-pro 名称提供给需要极致性能的开发者;Codex 中的 GPT-5.4 支持 1M 上下文窗口的实验性功能。</p><p data-vmark="bd45">OpenAI 表示,GPT-5.4 是首个融合前沿编码能力并在 ChatGPT、API 和 Codex 同步推出的主流推理模型,未来 Instant 模型和 Thinking 模型将以不同速度演进。</p> 
小讯
上一篇 2026-03-12 21:48
下一篇 2026-03-12 21:50

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/215337.html