ChatGPT 5.4登场，OpenAI第一个原生操控电脑的模型来了！

大家好，我是讯享网，很高兴认识大家。

你可能已经听说了，OpenAI 最近发布了 GPT-5.4。

这次不是小修小补，而是把之前分散在不同模型里的能力——推理、编程、计算机操作——全部整合到了一个模型里。

其中，我觉得最亮眼的进步，在于 GPT-5.4 把电脑仿真能力原生集成在模型里了，可以直接基于视觉操作电脑的绝大部分软件。

在深入了解之前，我们先看几组对比数据，感受一下这次升级的幅度。

讯享网

从这张图可以看出，GPT-5.4 在五个关键测试中全面领先。我们挑几个有代表性的说：

GDPval（专业工作能力）:83.0%，比 GPT-5.2 的 70.9% 提升了 12 个百分点。什么概念？就是在模拟真实职场任务时，GPT-5.4 有 83% 的情况能达到或超过专业人士的水平。

OSWorld-Verified（计算机操作）:75.0%，而 GPT-5.2 只有 47.3%。注意，这个 75% 已经超过了人类平均水平的 72.4%。换句话说，在通过截图操作电脑这件事上，GPT-5.4 比一般人做得还好。

BrowseComp（网络研究）:82.7%，比 GPT-5.2 的 65.8% 提升了 17 个百分点。这意味着它在网上找信息、汇总答案的能力有了质的飞跃。

当然，这些数据来自 OpenAI 的官方测试，实际使用中的表现可能会有差异。但至少从基准测试来看，提升是实打实的。

这张图展示了 GPT-5.4 在六大维度上的表现。我们不逐一展开了，只说一个有意思的：

在投资银行建模任务中，GPT-5.4 得分 87.3%，而 GPT-5.2 只有 68.4%。你想想，这可是初级分析师才会做的那种复杂 Excel 建模，涉及大量公式和逻辑。这个提升幅度，说明 GPT-5.4 在处理结构化、专业性强的任务时，确实更靠谱了。

什么叫“操作电脑”？不是简单地生成代码让你去跑，而是它自己能看懂屏幕截图，然后发出鼠标和键盘指令，像人一样完成任务。

比如，你让它“在招聘网站上找产品经理的工作，然后投简历”，它能自己打开浏览器、搜索职位、填写表单、提交申请。整个过程不需要你手动干预。

这在 OpenAI 的通用模型里还是第一次。之前要实现这种功能，得靠专门的工具或者复杂的代码框架。现在 GPT-5.4 把这个能力原生集成了。

但问题是，这个能力在实际应用中的可靠性如何？毕竟测试环境和真实场景还是有差距的。OpenAI 也承认，开发者需要根据不同的风险等级设置确认策略——换句话说，关键操作还是需要人工把关。

GPT-5.4 引入了一个叫“工具搜索”(Tool Search）的功能。

传统方式下，如果你给模型提供 100 个工具，它每次都得把这 100 个工具的定义全部加载到上下文里。这不仅浪费 token，还拖慢速度。

现在有了工具搜索，模型只接收一个工具列表。当它需要用某个工具时，再即时查找那个工具的定义。

这有什么好处？在 Scale 的 MCP Atlas 测试中，启用工具搜索后，token 使用量减少了 47%，但准确率不变。对开发者来说，这意味着更低的成本和更快的响应速度。

GPT-5.4 把之前 GPT-5.3-Codex 的编程能力整合了进来，同时在长时间任务中表现更好。

在 Codex 里开启 /fast 模式，token 生成速度能提升 1.5 倍。你想想，写代码、调试、改 bug，如果每次等待时间都能缩短三分之一，工作流畅度会提升多少。

OpenAI 还发布了一个实验性功能叫“Playwright (Interactive)”，允许 Codex 可视化调试 Web 应用——甚至可以在构建应用的同时对它进行测试。这对前端开发者来说，可能是个不小的效率提升。

假如你问 GPT-5.4 一个需要从多个来源汇总信息的问题，比如“过去五年全球可再生能源投资的地区分布变化”，它现在能更持久地搜索、筛选、综合信息。

在 BrowseComp 测试中，GPT-5.4 比 GPT-5.2 提升了 17 个百分点。实际使用中，这意味着它在回答那些需要深度挖掘的特定问题时，更不容易半途而废或给出浅层答案。

当然，这里有个限制：它用的是 ChatGPT 的搜索工具，和 API 里的搜索可能有细微差异。而且测试是在特定日期进行的，网络环境的变化也会影响结果。

从 GPT-5.4 开始，OpenAI 引入了 original 图像输入级别，支持高达 10.24M 像素或 6000 像素最大尺寸的全保真感知。

这是什么概念？就是你上传一张超高清的设计图或者复杂的图表，它能看清每一个细节，不会因为压缩而丢失信息。

在文档解析方面，GPT-5.4 的平均误差是 0.109，优于 GPT-5.2 的 0.140。虽然提升幅度看起来不大，但在需要精确提取信息的场景下，这个差异可能就是“能用”和“好用”的分界线。

GPT-5.4 是 OpenAI 迄今为止最省 token 的推理模型。

这意味着什么？同样一个问题，GPT-5.4 用更少的 token 就能给出答案，速度更快，成本更低。特别是在长上下文任务中，这个优势更明显。

GPT-5.4 支持高达 100 万 token 的上下文。你可以把它想象成一本厚厚的书——它能记住整本书的内容，然后在这个基础上回答你的问题。

在 ChatGPT 中，GPT-5.4 Thinking 带来了一个很实用的改进：它会先给你列个计划，然后你可以在它工作的过程中实时调整方向。

比如，你让它写一份市场分析报告，它会先说：“我打算这样做：1) 收集行业数据，2) 分析竞争对手，3) 总结市场趋势，4) 提出建议。”

如果你发现第二步不是重点，可以立即打断：“不用分析竞争对手，重点放在市场趋势上。”它会马上调整，而不是等做完了再重来。

这个功能现在已经在网页版和 Android 应用上线了，iOS 版即将推出。

咱们来看看 API 的定价对比：

GPT-5.4 的输入价格从  2.50（每百万 token），输出价格从  15。

乍一看是贵了，但别忘了，GPT-5.4 的 token 效率更高。如果它用更少的 token 就能完成任务，总成本可能反而更低。

当然，这取决于你的具体使用场景。对于那些需要大量推理、反复调用的任务，节省的 token 可能很可观；但对于简单任务，可能感觉不出差别。

掌握了 GPT-5.4 的能力之后，怎么用好它？这里分享几个经过验证的技巧。

如果你希望 GPT-5.4 给出简洁、结构化的答案，可以在提示词里加上这样的约束：

 
   
    
     
    
     
      
    
     
      
    
     
      
   
    
     
   
    
     
    
     
     &lt;output_contract&gt;&nbsp; 
    
     
     - 只返回我要求的部分,按我要求的顺序&nbsp; 
    
     
     - 如果需要特定格式(JSON、表格等),只输出该格式&nbsp; 
    
     
     - 避免重复我的问题,直接给答案&nbsp; 
    
     
     &lt;/output_contract&gt;&nbsp; 
    
     
     &nbsp;

讯享网

这样能显著减少冗余输出，提高 token 效率。

在使用工具的场景下，可以明确告诉它：

讯享网 
   
    
      
    
     
       
    
     
       
    
     
       
   
    
      
   
    
      
    
     
      &lt;tool_persistence_rules&gt;&nbsp; 
    
     
      - 如果工具返回空结果或部分结果,用不同策略重试&nbsp; 
    
     
      - 持续调用工具直到任务完成且验证通过&nbsp; 
    
     
      - 将任务视为未完成,直到所有要求都被满足&nbsp; 
    
     
      &lt;/tool_persistence_rules&gt;&nbsp; 
    
     
      &nbsp;

这能避免它在遇到第一次失败后就放弃。

在返回最终答案之前，让它自我检查：

 
   
    
      
    
     
       
    
     
       
    
     
       
   
    
      
   
    
      
    
     
      &lt;verification_loop&gt;&nbsp; 
    
     
      在最终确定之前:&nbsp; 
    
     
      - 检查正确性:输出是否满足每个要求?&nbsp; 
    
     
      - 检查依据:事实声明是否有支撑?&nbsp; 
    
     
      - 检查格式:输出是否符合要求的样式?&nbsp; 
    
     
      &lt;/verification_loop&gt;&nbsp; 
    
     
      &nbsp;

这能减少错误和遗漏。

对于需要深度分析的问题，可以这样引导：

讯享网 
   
    
      
    
     
       
    
     
       
    
     
       
   
    
      
   
    
      
    
     
      &lt;research_mode&gt;&nbsp; 
    
     
      分 3 个阶段进行:&nbsp; 
    
     
      1) 计划:列出 3-6 个要回答的子问题&nbsp; 
    
     
      2) 检索:搜索每个子问题并跟进 1-2 个延伸线索&nbsp; 
    
     
      3) 综合:解决矛盾并撰写带引用的最终答案&nbsp; 
    
     
      &lt;/research_mode&gt;&nbsp; 
    
     
      &nbsp;

这能让它更系统地处理复杂问题。

对于编程任务，可以明确要求：

 
   
    
      
    
     
       
    
     
       
    
     
       
   
    
      
   
    
      
    
     
      &lt;autonomy_and_persistence&gt;&nbsp; 
    
     
      - 不要停在分析阶段,直接实施代码更改&nbsp; 
    
     
      - 将更改贯穿实施、验证和结果解释&nbsp; 
    
     
      - 遇到问题时尝试自己解决,而不是立即求助&nbsp; 
    
     
      &lt;/autonomy_and_persistence&gt;&nbsp; 
    
     
      &nbsp;

这能让它更主动地完成任务，而不是频繁等待你的指示。

GPT-5.4 有不同的推理努力级别（none、low、medium、high、xhigh）。

关键原则是：

简单、明确的任务：用 none 或 low
复杂、开放式的任务：用 high 或 xhigh
延迟敏感的场景：优先考虑速度

不要凭直觉，要根据任务的实际需求选择。

OpenAI 把 GPT-5.4 定义为“高网络安全能力”模型，部署了相应的保护措施。

对于某些零数据保留（ZDR）的客户，高风险请求会被异步阻止。OpenAI 承认，由于分类器还在改进，可能会出现一些误判——也就是说，有时候正常请求也可能被拦截。

如果你在使用中遇到莫名其妙的拒绝，可能就是这个原因。

OpenAI 做了一个测试，叫“CoT 可控性”，衡量模型是否能故意隐藏自己的推理过程。

结果显示，GPT-5.4 Thinking 的 CoT 可控性很低——这是个好消息，说明它不太会“耍心眼”，你能看到它的思考过程。

GPT-5.4 Thinking 现在已经向 ChatGPT Plus、Team 和 Pro 用户开放，取代了 GPT-5.2 Thinking.

GPT-5.2 Thinking 还会保留三个月，之后将于 2026 年 6 月 5 日退役。如果你还想用旧版本，可以在模型选择器的“旧版模型”里找到。

GPT-5.4 是 OpenAI 在通用人工智能道路上的又一次大步前进。

从数据来看，它在专业工作、编程、计算机操作等多个维度都有显著提升。但问题是，这些提升在实际使用中能带来多大的体验差异？

对于开发者来说，GPT-5.4 提供了构建更复杂 AI 代理的可能性——特别是计算机操作和工具搜索这两个功能，可能会催生一些新的应用场景。

对于普通用户来说，GPT-5.4 Thinking 的“中途调整”功能和更强的任务完成能力，意味着更高效的协作体验。但你可能需要一段时间来适应新的交互方式。

至于值不值得升级？这取决于你的具体需求。如果你经常处理复杂的专业任务、需要深度研究或者大量使用编程功能，GPT-5.4 可能会让你感觉到明显的提升。但如果只是日常聊天或简单问答，差异可能没那么大。

ChatGPT 5.4登场，OpenAI第一个原生操控电脑的模型来了！

相关推荐