如何评价OpenAI最新发布的GPT-5.4 mini和GPT-5.4 Nano？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

在OpenClaw类型任务上表现如何？

今天，GPT-5.4 mini和GPT-5.4 nano正式发布。

没有预热，没有倒计时，直接上线。

这两个模型要解决的问题很明确：在真实的生产环境里，怎么让AI又快又准又便宜地干活？

它们继承了GPT-5.4核心优势，速度拉满、成本更低，堪称轻量级模型巅峰之作。

先说最炸裂的数字——

编码（SWE-Bench Pro）：GPT-5.4 mini拿下54.4%，而满血版GPT-5.4是57.7%；

计算机使用（OSWorld-Verified）：GPT-5.4 mini 72.1%的成绩，媲美GPT-5.4（75%）

另外，在推理、工具调用等任务中，mini的实力直接逼近GPT-5.4。

而且，相较于上一代GPT-5 mini，GPT-5.4 mini运行速度直接飙升2倍！

网友直言，mini和nano完全可以当做「龙虾」的主力模型来用！

GPT-5.4 mini有400k超大上下文，输入价格0.75美元/百万token，输出价格4.5美元/百万token；

GPT-5.4 nano输入价格0.2美元/百万token，输出价格1.25美元/百万token。

相较于GPT-5.4，mini输出价格是其1/3，而nano价格只有1/12。

如今，快、强、便宜，三个词同时成立了。

而在半年之前，这是完全不可能的。

有人试用后惊叹道，简直太香了！不仅速度快，还要比Claude 4.6 Opus便宜9倍。

代码恐怖进化

mini追平「满血」，nano吊打前代

先看编码。

SWE-Bench Pro是目前衡量大模型「真实编码能力」最硬核的基准之一，它不考填空题，而是让模型直接修复GitHub上的真实软件Bug。

GPT-5.4 mini拿下54.4%，距满血版GPT-5.4（57.7%）只差3.3%。

这意味着一个为速度和成本优化的小模型，在解决真实工程问题时，已经摸到了旗舰模型的天花板。

而上一代GPT-5 mini仅45.7%，mini到mini之间，一代之隔就是近9%的飞跃。

Terminal-Bench 2.0的差距更夸张。GPT-5.4 mini拿下60.0%，GPT-5 mini只有38.2%，提升幅度超过57%。

即便是最小号的nano，也在SWE-Bench Pro上打出了52.4%，比上一代mini还高出近7%。

一个定位于「分类和数据提取」的超轻量模型，代码能力居然碾压上一代的中量级选手，这就是蒸馏模型在过去几个月的进化速度。

对开发者来说，这组数据的实际含义非常直接：

那些不需要旗舰模型「满功率思考」的编码任务，比如定向代码修改、前端页面生成、调试循环、代码库检索，现在可以全部交给mini，速度快一倍，成本低一大截，效果几乎无损。

博士级推理，复杂工具调用双杀

编码只是一个切面，推理和工具调用能力，决定了一个模型能不能真正「干活」。

GPQA Diamond是一个博士级科学推理基准，GPT-5.4 mini取得了88%的成绩，与GPT-5.4仅差5%。

更值得关注的是「工具调用」能力。

Toolathlon主要测试模型在复杂工具链中的表现，不只是调一次API，而是在多步骤任务中正确地组合、排序、使用多种工具。

结果，GPT-5.4 mini得分42.9%，完全碾压GPT-5 mini（26.9%）。

此外，在电信行业专用基准τ2-bench上，mini更是打出了93.4%的超高分，几乎追平满血版98.9%，把GPT-5 mini（74.1%）远远甩在身后。

在另一个工具调用基准MCP Atlas上，GPT-5.4 mini拿到57.7%，而GPT-5 mini只有47.6%。

这些数字汇成一句话：GPT-5.4 mini不只是一个「缩小版的聪明模型」，它是一个真正能在生产环境中独立完成复杂任务链的执行者。

「龙虾」主力

小模型也能「看屏幕干活」

GPT-5.4 mini真正让人意外的，是它在计算机使用上的表现。

人怎么用电脑？眼睛看屏幕上的UI元素，大脑判断该点哪里，手去操作鼠标和键盘。

如果AI要真正成为你的「赛博助理」，它也得学会这套——快速解析一张信息密集的屏幕截图，定位按钮、输入框和数据列表，然后做出正确操作。

OSWorld-Verified就是测这个「视觉理解+推理+操作」三位一体的综合能力的。

在这张榜上，GPT-5.4 mini拿到了72.1%，而旗舰版GPT-5.4是75.0%。差距不到3个百分点。

反观GPT-5 mini只有42.0%。一代之间，计算机使用能力几乎翻了一倍。

不过，nano在这项测试中只拿到了39.0%，甚至略低于上一代GPT-5 mini的42.0%。

这说明计算机使用任务对模型的视觉推理能力有很高的门槛要求，不是单纯缩小模型就能保住的：mini和nano之间存在一道清晰的能力断层。

在MMMUPro（含Python工具）上，mini拿到78.0%，旗舰版81.5%，差距同样很小。

这个基准涵盖了大量需要结合视觉信息和数学/代码工具进行推理的复杂题目。

这组结果对一个特定方向有重大意义：AI Agent。

当一个小模型能快速解析信息密集的UI截图，并在低延迟下做出正确操作决策时，它就成了构建实时计算机使用Agent的理想引擎——成本低，响应快，能力够。

在TBPN最新访谈中，奥特曼明确了下一步愿景：

OpenAI将推出一个进化版的Codex，新版本不再局限于编程，将演变成一个「控制计算机」的强大工具。

在他设想中，人们可以完全通过手机启动并管理新任务，真正的终极体验是，拥有一个基于统一后端的个人专属的AI。

它能访问个人所有数据、想法、素材、记忆，并能跨越多个终端，无缝执行任务

子智能体范式

大模型决策，小模型执行

这次发布中，OpenAI花了不少篇幅阐述一个理念：最好的AI系统，不一定要用最大的模型来处理所有事情。

他们提出的架构思路很清晰：

旗舰模型GPT-5.4负责规划、协调和最终决策，然后把具体任务分发给GPT-5.4 mini子智能体并行执行。

搜索代码库、审查大型文件、处理支持文档，这些不需要「深度思考」但需要「快速完成」的工作，全部交给mini。

在Codex中，这套架构已经落地了。

开发者可以让GPT-5.4制定整体方案，然后自动调度mini子智能体去执行各个子任务。

而且mini在Codex中只消耗GPT-5.4配额的30%。

也就是说，同样的预算，你可以跑三倍多的mini任务。

这种「分层调度」的思路，其实是整个AI行业正在收敛的共识。

与其追求一个无所不能的超大模型，不如构建一个分工明确的模型协作系统。

旗舰模型像总指挥，mini模型像执行团队，nano模型像处理琐碎事务的助理。

对开发者来说，这意味着架构设计的思路要变了。

以前是「选一个最强的模型，所有任务都扔给它」；现在是「根据任务复杂度，动态路由到不同层级的模型」。

Hebbia的CTO Aabhas Sharma给出的评价很有代表性：

GPT-5.4 mini在多项输出任务和引用召回率上，以低得多的成本匹敌甚至超越了竞品模型，还实现了比更大模型更高的端到端通过率。

「更小的模型，更好的效果」，这句话放在两年前像是天方夜谭，现在已经成了工程实践中的真实场景。

全面铺开，免费用户也能用

今天，GPT-5.4 mini已经全线上线，API、Codex、ChatGPT三端同步开放。

API定价为输入0.75美元/百万Token，输出4.50美元/百万Token，上下文窗口400K。

支持文本和图像输入、工具使用、函数调用、网络搜索、文件搜索、计算机使用等全套能力。

GPT-5.4 nano仅在API中可用，价格为输入0.20美元/百万Token，输出1.25美元/百万Token。

做个对比。GPT-5.4 nano的输入价格是mini的约四分之一，输出价格也不到mini的三分之一。

对于分类、数据提取、排序这类高频但低复杂度的任务来说，nano的性价比几乎无敌。

在ChatGPT端，GPT-5.4 mini已向免费用户和Go用户开放，可以通过菜单中的「Thinking」功能使用。对于付费用户，当GPT-5.4 Thinking额度耗尽时，mini会自动作为降级备选方案。

这个策略很聪明，让免费用户也能体验到强大的推理能力，降低使用门槛的同时扩大用户基盘。

而对付费用户来说，mini的存在让「额度焦虑」大大缓解。

长上下文是mini的短板

当然，mini不是没有弱点。

在长上下文处理上，GPT-5.4 mini和旗舰版的差距比其他维度更明显。

OpenAI MRCR v2测试在64K-128K窗口下的8针搜索任务中，GPT-5.4拿到86.0%，mini只有47.7%，差距接近40个百分点。在128K-256K窗口下，这个差距进一步拉大到79.3%对33.6%。

Graphwalks系列测试也呈现类似趋势。在父节点追踪任务上，GPT-5.4拿到89.8%，mini是71.5%。

这说明在需要对超长文本进行精确信息检索和逻辑追踪的场景下，mini的能力上限还是显著低于旗舰版。

对于需要处理大规模文档分析、长对话记忆保持等任务的开发者来说，GPT-5.4仍然是不可替代的选择。

不过话说回来，这也恰好印证了OpenAI的产品分层逻辑：不同的任务，用不同的模型。

mini不需要在每个维度都追平旗舰，它只需要在自己主攻的方向——速度、编码、工具调用、计算机使用，做到足够好就行。

不是结局，是起点

技术在狂奔，但人的情绪要复杂得多。

今早，奥特曼在X上发文：

我对那些逐字逐句写出极其复杂软件的人，充满感激。

现在已经很难想象那曾经需要多大的努力了。谢谢你们把我们带到了今天。

评论区瞬间炸了。

大量开发者读出了另一层意思——感谢你们的贡献，但这个活以后AI来干了。

有人回怼：谢谢啊，原来我们的回报就是丢掉工作。

也有人直指训练数据争议：模型本身就是用这些开发者的代码喂出来的，现在反过来替代他们，这算哪门子感激？

不过也有人借此提了个值得思考的问题：

当语法层面被AI解决，软件工程的核心竞争力是不是该从「怎么写代码」转向「怎么设计系统」？

争议归争议，趋势不会因为情绪而停下。

回望科技史，从大型机到PC，从拨号上网到移动互联网，每一次真正的技术革命都不是靠最强最贵的产品完成的。

革命完成的标志，是技术变得像水和电一样——廉价、无感、无处不在。

GPT-5.4 mini在SWE-Bench Pro上追到了旗舰版的94%，在OSWorld上追到了96%，在GPQA Diamond上追到了95%。速度是前代的两倍，成本是旗舰版的零头。

对普通开发者来说，这意味着曾经只有大厂才玩得起的AI能力，现在用mini的价格就能接入。
对AI应用创业者来说，这意味着产品的推理成本可以再降一个数量级。
对整个行业来说，这意味着AI的渗透速度将进一步加快，因为挡在前面的成本和延迟两道墙，正在被小模型一砖一砖地拆掉。

大模型负责思考，小模型负责执行。旗舰模型定义智力的天花板，小模型打通AI走进每一个应用的毛细血管。

这不再是愿景，而是今天就能跑起来的架构。

谢邀

首先一个问题是Mini 的暗中涨价了输入 $0.75 / 输出 $4.50。相比于5 mini 的 $0.25 输入端价格，GPT-5.4 mini 的价格实际上涨了 3 倍。这时候你就要考虑也它不再是一“廉价平替”了。而且在同级别对比中，它的价格也略高于对标的 Gemini 3 Flash（$0.50/$3.00）。

但是你从5.4的定位来看，说明这就是为了计算机控制来做的。

GPT-5.4最大的亮点之一就是能够原生支持软件交互循环（Software-interaction loops），理解 UI 状态、分析屏幕截图并采取精确的范围性操作，而且mini 和 Nano 也都包含了这个能力。在现代的 Agent应用架构中，我们基本上都会用一个重型大模型（如 GPT-5.4 Pro、Claude 4.6 Opus 或 Gemini 3.1 Pro）作为“大脑”来做整体规划，然后把具体的工作，比如点击、高频搜索、循环运行代码等动作拆解，派发给小模型，例如mini 或 Nano 去快速执行。

而这俩模型正好就是为了这个目的去的：低延迟、低成本的 Agent（智能体）工作流和代码能力。

GPT-5.4 mini，API 测试平均可达 180+ tokens/s，比前代 GPT-5 mini 快了约 2倍，GPT-5.4 Nano最便宜的模型可以作为作为Sub-agents去执行分类、网页搜索总结、数据提取或大规模图片打标签这种不复杂但是高频、海量基础任务。

最后回到你的问题，虽然我不怎么用OpenClaw ，但是针对它这种：高频工具调用、本地环境感知、多步自主执行的任务，我觉得应该是非常合适的，或者说我觉得应该是专门为了OpenClaw 出的这个模型。

PinchBench这个测试我没看到结果，但是OSWorld-Verified上GPT-5.4 mini 得分 72.13%，比最高的 75.03% 只低约 3 个百分点说明这个模型绝对可以用，而且表现还可以。

Nano 监听邮件收件箱、Slack 频道或系统日志这种这种高频轮询的应该是没问题的，但是在高级的任务还是要高级的模型来做。

没看到Nano