你可能已经听说了,OpenAI 最近发布了 GPT-5.4。
这次不是小修小补,而是把之前分散在不同模型里的能力——推理、编程、计算机操作——全部整合到了一个模型里。
其中,我觉得最亮眼的进步,在于 GPT-5.4 把电脑仿真能力原生集成在模型里了,可以直接基于视觉操作电脑的绝大部分软件。
在深入了解之前,我们先看几组对比数据,感受一下这次升级的幅度。
讯享网
从这张图可以看出,GPT-5.4 在五个关键测试中全面领先。我们挑几个有代表性的说:
GDPval(专业工作能力):83.0%,比 GPT-5.2 的 70.9% 提升了 12 个百分点。什么概念?就是在模拟真实职场任务时,GPT-5.4 有 83% 的情况能达到或超过专业人士的水平。
OSWorld-Verified(计算机操作):75.0%,而 GPT-5.2 只有 47.3%。注意,这个 75% 已经超过了人类平均水平的 72.4%。换句话说,在通过截图操作电脑这件事上,GPT-5.4 比一般人做得还好。
BrowseComp(网络研究):82.7%,比 GPT-5.2 的 65.8% 提升了 17 个百分点。这意味着它在网上找信息、汇总答案的能力有了质的飞跃。
当然,这些数据来自 OpenAI 的官方测试,实际使用中的表现可能会有差异。但至少从基准测试来看,提升是实打实的。
这张图展示了 GPT-5.4 在六大维度上的表现。我们不逐一展开了,只说一个有意思的:
在投资银行建模任务中,GPT-5.4 得分 87.3%,而 GPT-5.2 只有 68.4%。你想想,这可是初级分析师才会做的那种复杂 Excel 建模,涉及大量公式和逻辑。这个提升幅度,说明 GPT-5.4 在处理结构化、专业性强的任务时,确实更靠谱了。
什么叫“操作电脑”?不是简单地生成代码让你去跑,而是它自己能看懂屏幕截图,然后发出鼠标和键盘指令,像人一样完成任务。
比如,你让它“在招聘网站上找产品经理的工作,然后投简历”,它能自己打开浏览器、搜索职位、填写表单、提交申请。整个过程不需要你手动干预。
这在 OpenAI 的通用模型里还是第一次。之前要实现这种功能,得靠专门的工具或者复杂的代码框架。现在 GPT-5.4 把这个能力原生集成了。
但问题是,这个能力在实际应用中的可靠性如何?毕竟测试环境和真实场景还是有差距的。OpenAI 也承认,开发者需要根据不同的风险等级设置确认策略——换句话说,关键操作还是需要人工把关。
GPT-5.4 引入了一个叫“工具搜索”(Tool Search)的功能。
传统方式下,如果你给模型提供 100 个工具,它每次都得把这 100 个工具的定义全部加载到上下文里。这不仅浪费 token,还拖慢速度。
现在有了工具搜索,模型只接收一个工具列表。当它需要用某个工具时,再即时查找那个工具的定义。
这有什么好处?在 Scale 的 MCP Atlas 测试中,启用工具搜索后,token 使用量减少了 47%,但准确率不变。对开发者来说,这意味着更低的成本和更快的响应速度。
GPT-5.4 把之前 GPT-5.3-Codex 的编程能力整合了进来,同时在长时间任务中表现更好。
在 Codex 里开启 /fast 模式,token 生成速度能提升 1.5 倍。你想想,写代码、调试、改 bug,如果每次等待时间都能缩短三分之一,工作流畅度会提升多少。
OpenAI 还发布了一个实验性功能叫“Playwright (Interactive)”,允许 Codex 可视化调试 Web 应用——甚至可以在构建应用的同时对它进行测试。这对前端开发者来说,可能是个不小的效率提升。
假如你问 GPT-5.4 一个需要从多个来源汇总信息的问题,比如“过去五年全球可再生能源投资的地区分布变化”,它现在能更持久地搜索、筛选、综合信息。
在 BrowseComp 测试中,GPT-5.4 比 GPT-5.2 提升了 17 个百分点。实际使用中,这意味着它在回答那些需要深度挖掘的特定问题时,更不容易半途而废或给出浅层答案。
当然,这里有个限制:它用的是 ChatGPT 的搜索工具,和 API 里的搜索可能有细微差异。而且测试是在特定日期进行的,网络环境的变化也会影响结果。
从 GPT-5.4 开始,OpenAI 引入了 original 图像输入级别,支持高达 10.24M 像素或 6000 像素最大尺寸的全保真感知。
这是什么概念?就是你上传一张超高清的设计图或者复杂的图表,它能看清每一个细节,不会因为压缩而丢失信息。
在文档解析方面,GPT-5.4 的平均误差是 0.109,优于 GPT-5.2 的 0.140。虽然提升幅度看起来不大,但在需要精确提取信息的场景下,这个差异可能就是“能用”和“好用”的分界线。
GPT-5.4 是 OpenAI 迄今为止最省 token 的推理模型。
这意味着什么?同样一个问题,GPT-5.4 用更少的 token 就能给出答案,速度更快,成本更低。特别是在长上下文任务中,这个优势更明显。
GPT-5.4 支持高达 100 万 token 的上下文。你可以把它想象成一本厚厚的书——它能记住整本书的内容,然后在这个基础上回答你的问题。
在 ChatGPT 中,GPT-5.4 Thinking 带来了一个很实用的改进:它会先给你列个计划,然后你可以在它工作的过程中实时调整方向。
比如,你让它写一份市场分析报告,它会先说:“我打算这样做:1) 收集行业数据,2) 分析竞争对手,3) 总结市场趋势,4) 提出建议。”
如果你发现第二步不是重点,可以立即打断:“不用分析竞争对手,重点放在市场趋势上。”它会马上调整,而不是等做完了再重来。
这个功能现在已经在网页版和 Android 应用上线了,iOS 版即将推出。
咱们来看看 API 的定价对比:
GPT-5.4 的输入价格从 2.50(每百万 token),输出价格从 15。
乍一看是贵了,但别忘了,GPT-5.4 的 token 效率更高。如果它用更少的 token 就能完成任务,总成本可能反而更低。
当然,这取决于你的具体使用场景。对于那些需要大量推理、反复调用的任务,节省的 token 可能很可观;但对于简单任务,可能感觉不出差别。
掌握了 GPT-5.4 的能力之后,怎么用好它?这里分享几个经过验证的技巧。
如果你希望 GPT-5.4 给出简洁、结构化的答案,可以在提示词里加上这样的约束:
讯享网
这样能显著减少冗余输出,提高 token 效率。
在使用工具的场景下,可以明确告诉它:
这能避免它在遇到第一次失败后就放弃。
在返回最终答案之前,让它自我检查:
这能减少错误和遗漏。
对于需要深度分析的问题,可以这样引导:
这能让它更系统地处理复杂问题。
对于编程任务,可以明确要求:
这能让它更主动地完成任务,而不是频繁等待你的指示。
GPT-5.4 有不同的推理努力级别(none、low、medium、high、xhigh)。
关键原则是:
- 简单、明确的任务:用 none 或 low
- 复杂、开放式的任务:用 high 或 xhigh
- 延迟敏感的场景:优先考虑速度
不要凭直觉,要根据任务的实际需求选择。
OpenAI 把 GPT-5.4 定义为“高网络安全能力”模型,部署了相应的保护措施。
对于某些零数据保留(ZDR)的客户,高风险请求会被异步阻止。OpenAI 承认,由于分类器还在改进,可能会出现一些误判——也就是说,有时候正常请求也可能被拦截。
如果你在使用中遇到莫名其妙的拒绝,可能就是这个原因。
OpenAI 做了一个测试,叫“CoT 可控性”,衡量模型是否能故意隐藏自己的推理过程。
结果显示,GPT-5.4 Thinking 的 CoT 可控性很低——这是个好消息,说明它不太会“耍心眼”,你能看到它的思考过程。
GPT-5.4 Thinking 现在已经向 ChatGPT Plus、Team 和 Pro 用户开放,取代了 GPT-5.2 Thinking.
GPT-5.2 Thinking 还会保留三个月,之后将于 2026 年 6 月 5 日退役。如果你还想用旧版本,可以在模型选择器的“旧版模型”里找到。
GPT-5.4 是 OpenAI 在通用人工智能道路上的又一次大步前进。
从数据来看,它在专业工作、编程、计算机操作等多个维度都有显著提升。但问题是,这些提升在实际使用中能带来多大的体验差异?
对于开发者来说,GPT-5.4 提供了构建更复杂 AI 代理的可能性——特别是计算机操作和工具搜索这两个功能,可能会催生一些新的应用场景。
对于普通用户来说,GPT-5.4 Thinking 的“中途调整”功能和更强的任务完成能力,意味着更高效的协作体验。但你可能需要一段时间来适应新的交互方式。
至于值不值得升级?这取决于你的具体需求。如果你经常处理复杂的专业任务、需要深度研究或者大量使用编程功能,GPT-5.4 可能会让你感觉到明显的提升。但如果只是日常聊天或简单问答,差异可能没那么大。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/208989.html