2026年凌晨2点，OpenAI突然发布GPT-5.4：83%碾压人类专家，Claude用户集体破防

大家好，我是讯享网，很高兴认识大家。

深夜突袭，OpenAI 用一个模型，改写了整个 AI Agent 的游戏规则。

3 月 5 日凌晨 2 点，就在大多数人准备睡觉的时候，OpenAI 突然发布了 GPT-5.4。

这不是一次常规升级。这是一次针对 Anthropic Claude 的精准狙击，也是 OpenAI 对“AI Agent 时代谁是王者”这个问题给出的最新答案。

发布 8 小时后，Reddit 上的 Claude 用户社区已经炸了。有人说“这是我第一次认真考虑退订 Claude Max”，有人直接发帖：“GPT-5.4 和 GPT-5.4 Pro 发布了，退订 Claude Code 吧！”

为什么一个模型发布，能让竞品用户集体破防？因为 GPT-5.4 做到了一件之前所有人都认为不可能的事：把专业编程模型的代码能力、通用模型的世界知识、Agent 模型的工具调用能力，全部塞进一个模型里——而且还更便宜、更快、更能“说人话”。

这不是技术参数的堆砌，这是一次产品定义的重塑。

先说最让人震撼的数字。

OpenAI 在 GDPval 测试中，让 GPT-5.4 Thinking 完成了覆盖 44 种职业、9 个行业的真实知识工作任务——金融建模、法律分析、演示文稿制作、复杂电子表格管理。

结果：83.0% 的任务完成率。

这个数字意味着什么？意味着在 100 个真实的专业工作任务里，GPT-5.4 能完成 83 个，达到或超过人类专家的水平。Claude Opus 4.6 是 78.0%，GPT-5.3 Codex 是 70.9%。citationcitation

更夸张的是 OSWorld-Verified 测试——这个测试衡量的是 AI 操作真实电脑的能力：用鼠标点击、用键盘输入、在不同应用之间切换。GPT-5.4 拿了 75.0%，超过了 Claude Opus 4.6 的 72.7%，也超过了人类基准线的 72.4%。

翻译成大白话就是：让 AI 操作你的电脑完成任务，它比普通人做得还好。

这不是“AI 辅助人类工作”，这是“AI 直接替代人类工作”。

GPT-5.4 发布后，最激动的不是 ChatGPT 用户，而是 OpenClaw（小龙虾）用户。

为什么？因为在 GPT-5.4 之前，OpenClaw 用户一直面临一个两难选择：

用 Claude Opus 4.6：能力强、说人话、规划能力好，但贵得要命，而且 Anthropic 封了 OpenClaw，只能用 API，成本直接破产。
用 GPT-5.3-Codex：代码能力强到爆炸，但世界知识是一坨屎，说话像天书，根本不像在跟人对话。

一位 OpenClaw 深度用户在文章里写道：“GPT-5.3-Codex 让它审查我的代码库，写出来的文档我看得超级费劲，全是专业术语堆砌，没有任何人味。而 Claude Opus 4.6 写的同样内容，清晰、有逻辑、说人话。”

但 GPT-5.4 来了，这个两难彻底消失了。

GPT-5.4 = GPT-5.3 Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的工具使用能力 + 超级便宜的 Codex 额度。

代码能力跟 GPT-5.3-Codex 齐平（SWE-Bench Pro 57.7%），世界知识比 GPT-5.2 还强，工具调用能力（Toolathlon 54.6%）超过 Claude Sonnet 4.6 的 44.8%，而且可以直接用 Codex 订阅额度，不需要走 API。

OpenAI 在这件事上展现出的产品思维，远超竞争对手。当 Anthropic 疯狂封 OpenCode 账号的时候，OpenAI 大手一挥说“我们不封，大家全力使用”，还疯狂给 Codex 加额度。这种对开发者友好的态度，直接转化成了用户忠诚度。

一位用户在社区里说：“从今天开始，用 OpenClaw 的，都把默认模型切换到 GPT-5.4 去，真的，信我。”

GPT-5.4 不只是跑分好看，它有三个真正改变游戏规则的特性。

OpenAI 说 GPT-5.4 是他们第一个内置原生计算机使用能力的主线模型。

什么意思？以前的 AI Agent 操作电脑，要么是通过 Playwright 这种库写代码间接控制，要么是像 Claude 的 Computer Use 那样，作为一个独立的特化功能。

GPT-5.4 不一样。它可以同时用代码和视觉两种方式操作电脑——既能写 Playwright 代码自动化浏览器，也能根据屏幕截图直接发出鼠标和键盘命令。citationcitation

OpenAI 还发布了一个新的 Skill 叫 playwright-interactive，允许 Codex 同时以代码和视觉的两种方式调试 Web 和 Electron 应用。

这意味着什么？意味着你的小龙虾可以像人一样操作你电脑上的任何软件——不只是浏览器，而是整个操作系统。这是真正的“数字员工”。

GPT-5.4 的上下文窗口从 GPT-5.3 的 40 万 token 直接翻倍到 100 万 token。

对 Agent 来说，这太重要了。因为 Agent 在执行任务的时候，需要保持对整个任务的上下文理解。如果上下文窗口不够大，Agent 干着干着就会忘事儿，前面说的东西后面就不记得了。

100 万 token，基本上足够应对绝大部分的 Agent 任务了——分析整个代码库、处理长文档集合、执行复杂的多步骤工作流，全都不在话下。

当然，OpenAI 也不傻，他们说超过 27.2 万 token 之后，你的额度就算两倍了。但因为 Codex 给的额度实在是太多太多了，所以即使是 2 倍，其实也还好。

这是一个被很多人忽略、但其实超级重要的特性。

以前，当模型被赋予工具时，所有工具定义都会预先包含在提示中。对于拥有大量工具的系统，这可能会为每个请求增加数千甚至数万个 token，而且绝大多数的时候，都毫无意义，平白无故导致成本上升、响应变慢。

GPT-5.4 支持了工具搜索——模型不再直接接收完整工具定义，而是接收一份可用工具的轻量列表以及工具搜索功能。当模型需要使用某个工具时，它可以查找该工具的定义并在当时将其追加到对话中。

OpenAI 在测试中发现，工具搜索配置在保持相同准确率的同时将总体 token 使用量减少 47%。

这个优化非常像 Skills 渐进式呈现的方式，目的很简单：优化上下文工程，让 Agent 更快、更省钱。

GPT-5.4 发布后，Reddit 上的 r/ClaudeAI 社区出现了大量讨论帖，标题都是“ChatGPT 5.4 vs Claude Opus 4.6”。

讨论的核心不是能力，而是性价比。

Claude Opus 4.6 的 API 价格是  25 每百万 token（输入/输出），GPT-5.4 是  12.50，只有 Claude 的一半。

更关键的是，GPT-5.4 可以用 Codex 订阅额度（每月 \(20），而 Claude 在 OpenClaw 上只能用 API。这意味着：<ul style="padding-left: 26px;list-style-type: disc;color: #F89A3A;margin: 8px 0 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;" class="list-paddingleft-1"><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;">用 GPT-5.4：每月 \)20，无限制使用（有额度限制但非常宽松）

用 Claude Opus 4.6：每次调用都要花钱，成本高到让小团队破产

一位用户在社区里说：“这次我彻底没有用 Claude Code 的理由了。GPT-5.4 各方面能力都领先 Claude Opus 4.6，代码能力更不用说，而且‘不怎么说人话’的问题得到了很大的缓解。”

另一位用户更直接：“用上新的 GPT-5.4 和 GPT-5.4 Pro 了，Claude Max 要不退我点钱吧。”

当然，也有 Claude 的忠实用户在反驳：“即使 GPT-5.4 在技术上可能更强，但 Claude 的用户体验和 Midpage 交互还是更好。”但这种声音明显少数。

除了 GPT-5.4，OpenAI 还发布了 GPT-5.4 Pro——一个更强、更贵、只有 Pro 会员（\(200/月）才能用的版本。<p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;">GPT-5.4 Pro 在所有测试中都比标准版更强：<ul style="padding-left: 26px;list-style-type: disc;color: #F89A3A;margin: 8px 0 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;" class="list-paddingleft-1"><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;">BrowseComp（网页浏览）：89.3%，超过 Gemini 3.1 Pro 的 85.9%</li><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;">SWE-Bench Pro（软件工程）：比标准版更高</li><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;">GPQA Diamond（科学推理）：94.4%，与 Gemini 3.1 Pro 基本持平</li></ul><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;">但对于大多数人来说，GPT-5.4 Pro 太贵了，也没啥大用。标准版的 GPT-5.4 Thinking 已经足够强大，而且只需要 \)20/月的 Plus 订阅。当然，不差钱的请继续。

GPT-5.4 的发布，代表了 OpenAI 的一个产品哲学：用一个超强的通用模型，替代多个特化模型。

以前，OpenAI 有 GPT-5.2（通用）、GPT-5.3-Codex（编程）、GPT-5.2 Thinking（推理）。现在，GPT-5.4 把这三个模型的能力全部整合到一起。

这个策略的好处是：用户不需要在不同模型之间切换，不需要判断“这个任务该用哪个模型”，直接用 GPT-5.4 就行了。

但这个策略也有风险：如果某个特定场景下，特化模型的表现更好怎么办？比如 Claude Opus 4.6 在 SWE-Bench Verified 上的得分依然是最高的。

一位行业观察者说得很精准：“最好的工程和商业团队会采用多模型策略，将任务路由到最适合每个工作流的模型——同时捕获 GPT-5.4 的计算机使用能力、Gemini 的推理成本比，以及 Opus 的编码精度。”

但对于普通用户和小团队来说，GPT-5.4 已经足够好了。它不需要是每个维度上的第一名，只需要在综合能力、价格、易用性上做到最优平衡——而这正是 OpenAI 最擅长的。

GPT-5.4 的发布，标志着 AI Agent 进入了一个新阶段。

过去，我们讨论 Agent 的时候，讨论的是“AI 能不能完成任务”。现在，我们讨论的是“AI 能不能像人一样工作”。

GPT-5.4 用 83% 的专业工作完成率、75% 的计算机操作能力、100 万 token 的上下文窗口，给出了一个明确的答案：可以。

而且，这个答案不是实验室里的 demo，而是每个人都能用上的产品。

一位 OpenClaw 用户在凌晨 6 点发帖说：“我等到了凌晨 6 点多，OpenClaw 目前还没有支持 GPT-5.4。不过估计我一觉睡醒，估计小龙虾就支持了。因为社区里已经看到很多用户在催了，而且先行官们，都普遍反馈效果很好。坐等支持，我真的已经迫不及待了。”

我和多位好友早上测试了，更新openclaw重新授权，但是还未出现5.4，有的还是可以的，极客可以继续，建议稍等下更新版。

这种迫不及待，不是因为 GPT-5.4 跑分高，而是因为它真的能改变工作方式。

当一个 AI 可以操作你的电脑、理解你的意图、记住所有上下文、用人话跟你沟通、还比人类专家做得更好——这不是工具，这是同事。

如果你还没用过 AI Agent，GPT-5.4 是一个很好的开始时机。

如果你已经在用 OpenClaw，记得 OpenClaw 支持后，把默认模型切换到 GPT-5.4。

如果你是 Claude 的付费用户，认真考虑一下 GPT-5.4 是不是更适合你——至少在编程、Agent、计算机操作这些场景下。

如果你是企业用户，OpenAI 还发布了 ChatGPT for Excel 和 Google Sheets（Beta 版），可以直接在电子表格里调用 GPT-5.4，构建、分析、更新复杂的财务模型。

2026 年，真是疯狂的一年。

每个月都有新模型发布，每次发布都在改写规则。但 GPT-5.4 这次不一样——它不只是在某个维度上做到最强，而是在综合能力、价格、易用性上做到了最优平衡。

这才是真正的“iPhone 时刻”。

相关信息：

GPT-5.4 现已在 ChatGPT、Codex 和 API 中上线
GPT-5.4 Thinking 面向 Plus、Team 和 Pro 用户开放
GPT-5.4 将在三个月后替代 GPT-5.2 Thinking
ChatGPT 免费用户也能使用 GPT-5.4，但仅在查询被自动路由到该模型时

既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧～

2026年凌晨2点，OpenAI突然发布GPT-5.4：83%碾压人类专家，Claude用户集体破防

相关推荐