GPT-5.4发布：推理、编码与代理能力的全面升级

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 <p>2026年3月6日凌晨,OpenAI正式发布了GPT-5.4模型。这次发布不同于以往的渐进式更新,而是一次具有里程碑意义的突破——它首次将推理、编码和智能体能力整合到单一模型中,标志着通用AI模型进入了新的发展阶段。</p><p>GPT-5.4包含两个版本:GPT-5.4 Thinking版本和GPT-5.4 Pro版本。值得注意的是,OpenAI取消了独立的Codex版本,将其强大的编码能力直接合并到主模型中。这意味着用户不再需要在不同模型之间切换,就能获得顶级的编程辅助体验。</p><p>GPT-5.4将上下文窗口从前代的500K tokens大幅扩展至100万tokens。这不仅仅是数字上的增长,更意味着模型能够处理更长、更复杂的任务。想象一下,你可以把整个代码库、完整的技术文档,甚至多个相关项目的资料一次性喂给模型,它都能保持清晰的理解和准确的响应。</p><p>GPT-5.4是首个具备原生计算机使用能力的通用模型。它可以通过截图理解屏幕内容,并通过键盘和鼠标指令直接操作电脑。这听起来有点科幻,但确实已经实现了。模型能看懂你的屏幕,知道按钮在哪里,表单该怎么填,甚至能帮你完成一系列复杂的操作流程。</p><p>在ChatGPT的Thinking模式中,GPT-5.4支持用户实时干预和调整方向。以前模型一旦开始思考,你只能等它完成。现在你可以在中途打断,告诉它"不对,换个思路",或者"这个方向对了,继续深入"。这种交互方式让人机协作变得更加灵活高效。</p><p>新增的Fast模式将响应速度提升了1.5倍。对于那些需要快速迭代的简单任务,这个模式能显著提高工作效率。不过要注意,速度提升的代价是token消耗也相应增加。所以建议简单任务用Fast模式,复杂任务还是用标准模式更划算。</p><p>GPT-5.4直接整合了GPT-5.3-Codex的编码能力。以前你可能需要在通用模型和编程专用模型之间来回切换,现在一个模型就能搞定所有事情。这种整合不是简单的功能堆砌,而是深度融合,让模型在处理复杂任务时能够无缝调用各种能力。</p><p>GPT-5.4在专业领域的表现令人印象深刻。在GDPval基准测试中,它在44个职业领域的83.0%项目中达到或超过了专业水平,而前代GPT-5.2的这一数字是70.9%。这个提升不是小打小闹,而是实实在在地跨越了"能用"和"好用"之间的鸿沟。</p><p>在电子表格建模任务中,GPT-5.4的平均得分达到87.3%,远超GPT-5.2的68.4%。这些可不是简单的加减乘除,而是投行级别的复杂财务模型。模型需要理解业务逻辑、构建公式关系、处理边界情况,还要保证数据的准确性。</p><p>在PPT生成任务中,68.0%的评审者更偏好GPT-5.4生成的演示文稿。优势主要体现在美学设计和视觉变化上。以前AI生成的PPT总给人一种"一眼就看出是机器做的"感觉,现在GPT-5.4在排版、配色、视觉层次方面都有了明显进步。</p><p>GPT-5.4将单个陈述的错误率降低了33%,完整回答出错的可能性降低了18%。这个改进对实际工作至关重要。毕竟,一个小错误可能导致整个方案推倒重来。更低的错误率意味着你可以更放心地把重要任务交给AI处理。</p><p>在处理高度具体的查询时,GPT-5.4展现出更强的长上下文连贯性。它能在海量信息中保持清晰的逻辑线索,不会因为上下文太长而"忘记"前面说过什么。这对需要深度研究的任务来说是个巨大优势。</p><p>在OSWorld-Verified基准测试中,GPT-5.4的成功率达到75.0%,不仅超越了GPT-5.2的47.3%,甚至超过了人类的平均表现(72.4%)。这个结果有点出人意料,但仔细想想也合理——AI不会手滑,不会因为疲劳而出错,在重复性操作上确实有优势。</p><p>在WebArena浏览器测试中,当结合DOM和截图信息时,GPT-5.4的成功率达到67.3%。在MMMU-Pro视觉理解测试中,成功率更是高达81.2%。这些数据说明,模型不仅能"看懂"屏幕,还能准确理解复杂的视觉信息。</p><p>在实际编码任务中,GPT-5.4的表现更加亮眼。在跨项目迁移认证体系的任务中,它的表现优于Claude 4.6。这个任务需要修改32个文件、超过3000行代码,涉及多个模块的协调和接口的适配。</p><p>在Skills Agent中端UI项目中,GPT-5.4改动了18个文件、约2000行代码。这不是简单的代码生成,而是需要理解现有架构、保持代码风格一致、处理各种边界情况的复杂工程任务。</p><p>不过,实际体验并非完美无缺。首先是前端审美问题,虽然比以前好了,但有些设计选择还是会让人觉得"不太对劲"。其次,当上下文过长时,模型的准确率会有所下降,可能会遗漏一些细节或者混淆不同部分的信息。</p><p>通过MCP或龙虾工具操作时,存在坐标定位不够精准的问题。有时候模型知道要点哪个按钮,但点击位置会有偏差。另外,额度消耗也比较快,两个中等复杂度的任务就能消耗掉50%的配额。</p><p>GPT-5.4的定价为:输入2.5美元/百万tokens,输出15美元/百万tokens。这个价格在高端模型中算是比较合理的,考虑到它整合了多种能力,性价比其实不错。</p><p>GPT-5.4可以通过ChatGPT、API、Codex以及各类第三方工具访问。这种多渠道策略让不同使用场景的用户都能方便地接入。Fast模式虽然速度快1.5倍,但消耗也翻倍,需要根据实际需求权衡。</p><p>GPT-5.4的发布对Claude Code形成了更大压力。现在用户开始在Codex、Claude Code、Open Code之间切换使用,根据不同任务选择最合适的工具。这种竞争格局对用户来说是好事,能促使各家不断改进。</p><p>GPT-5.4对技能和内置工具的支持更强,特别适合接入OpenCloud等平台。不过建议等龙虾工具更新后再接入,能获得更好的使用体验。目前的版本在某些操作上还不够流畅。</p><p>根据实际测试,简单任务建议使用Fast模式,能显著提高效率。复杂任务还是用标准模式,虽然慢一点但更准确。如果要通过第三方工具接入,最好等工具适配完成后再用,避免遇到兼容性问题。</p><p>GPT-5.4是首个真正意义上的"全能型"通用模型。它打破了"通用"和"专精"之间的界限,在保持强大通用能力的同时,编码能力与专用Codex相当甚至更强。</p><p>速度和效率的提升使其更适合实际工作场景。你不需要为了某个特定任务去学习新工具,也不需要在不同模型之间来回切换。一个GPT-5.4就能应对大部分专业工作需求。</p><p>当然,它仍然存在一些待改进的问题,比如前端审美、长上下文准确率等。但这些都是可以通过后续迭代解决的细节问题,不影响它作为里程碑式产品的地位。</p><p>GPT-5.4的发布标志着AI模型从"专精"向"通用"的重要转变。未来我们可能不再需要为不同任务准备不同的AI工具,一个足够强大的通用模型就能胜任绝大多数工作。这不仅是技术的进步,更是AI应用方式的根本性变革。</p>
GPT-5.4发布：推理、编码与代理能力的全面升级

相关推荐