2026年凌晨2点,OpenAI突然发布GPT-5.4:83%碾压人类专家,Claude用户集体破防

凌晨2点,OpenAI突然发布GPT-5.4:83%碾压人类专家,Claude用户集体破防深夜突袭 OpenAI 用一个模型 改写了整个 AI Agent 的游戏规则 3 月 5 日凌晨 2 点 就在大多数人准备睡觉的时候 OpenAI 突然发布了 GPT 5 4 这不是一次常规升级 这是一次针对 Anthropic Claude 的精准狙击 也是 OpenAI 对 AI Agent 时代谁是王者 这个问题给出的最新答案 发布 8 小时后 Reddit 上的 Claude

大家好,我是讯享网,很高兴认识大家。



封面首图-GPT5.4深夜发布
讯享网

深夜突袭,OpenAI 用一个模型,改写了整个 AI Agent 的游戏规则。


3 月 5 日凌晨 2 点,就在大多数人准备睡觉的时候,OpenAI 突然发布了 GPT-5.4。

这不是一次常规升级。这是一次针对 Anthropic Claude 的精准狙击,也是 OpenAI 对“AI Agent 时代谁是王者”这个问题给出的最新答案。

发布 8 小时后,Reddit 上的 Claude 用户社区已经炸了。有人说“这是我第一次认真考虑退订 Claude Max”,有人直接发帖:“GPT-5.4 和 GPT-5.4 Pro 发布了,退订 Claude Code 吧!”

为什么一个模型发布,能让竞品用户集体破防?因为 GPT-5.4 做到了一件之前所有人都认为不可能的事:把专业编程模型的代码能力、通用模型的世界知识、Agent 模型的工具调用能力,全部塞进一个模型里——而且还更便宜、更快、更能“说人话”。

这不是技术参数的堆砌,这是一次产品定义的重塑。


83%碾压人类专家

先说最让人震撼的数字。

OpenAI 在 GDPval 测试中,让 GPT-5.4 Thinking 完成了覆盖 44 种职业、9 个行业的真实知识工作任务——金融建模、法律分析、演示文稿制作、复杂电子表格管理。

结果:83.0% 的任务完成率。

这个数字意味着什么?意味着在 100 个真实的专业工作任务里,GPT-5.4 能完成 83 个,达到或超过人类专家的水平。Claude Opus 4.6 是 78.0%,GPT-5.3 Codex 是 70.9%。citationcitation

更夸张的是 OSWorld-Verified 测试——这个测试衡量的是 AI 操作真实电脑的能力:用鼠标点击、用键盘输入、在不同应用之间切换。GPT-5.4 拿了 75.0%,超过了 Claude Opus 4.6 的 72.7%,也超过了人类基准线的 72.4%

翻译成大白话就是:让 AI 操作你的电脑完成任务,它比普通人做得还好。

这不是“AI 辅助人类工作”,这是“AI 直接替代人类工作”。


OpenClaw用户狂欢

GPT-5.4 发布后,最激动的不是 ChatGPT 用户,而是 OpenClaw(小龙虾)用户。

为什么?因为在 GPT-5.4 之前,OpenClaw 用户一直面临一个两难选择:

  • 用 Claude Opus 4.6:能力强、说人话、规划能力好,但贵得要命,而且 Anthropic 封了 OpenClaw,只能用 API,成本直接破产。
  • 用 GPT-5.3-Codex:代码能力强到爆炸,但世界知识是一坨屎,说话像天书,根本不像在跟人对话。

一位 OpenClaw 深度用户在文章里写道:“GPT-5.3-Codex 让它审查我的代码库,写出来的文档我看得超级费劲,全是专业术语堆砌,没有任何人味。而 Claude Opus 4.6 写的同样内容,清晰、有逻辑、说人话。”

但 GPT-5.4 来了,这个两难彻底消失了。

GPT-5.4 = GPT-5.3 Codex 的代码能力 + 比 GPT-5.2 还强的世界知识 + 更强的工具使用能力 + 超级便宜的 Codex 额度。

代码能力跟 GPT-5.3-Codex 齐平(SWE-Bench Pro 57.7%),世界知识比 GPT-5.2 还强,工具调用能力(Toolathlon 54.6%)超过 Claude Sonnet 4.6 的 44.8%,而且可以直接用 Codex 订阅额度,不需要走 API。

OpenAI 在这件事上展现出的产品思维,远超竞争对手。当 Anthropic 疯狂封 OpenCode 账号的时候,OpenAI 大手一挥说“我们不封,大家全力使用”,还疯狂给 Codex 加额度。这种对开发者友好的态度,直接转化成了用户忠诚度。

一位用户在社区里说:“从今天开始,用 OpenClaw 的,都把默认模型切换到 GPT-5.4 去,真的,信我。”


三大杀手级特性

GPT-5.4 不只是跑分好看,它有三个真正改变游戏规则的特性。

OpenAI 说 GPT-5.4 是他们第一个内置原生计算机使用能力的主线模型

什么意思?以前的 AI Agent 操作电脑,要么是通过 Playwright 这种库写代码间接控制,要么是像 Claude 的 Computer Use 那样,作为一个独立的特化功能。

GPT-5.4 不一样。它可以同时用代码和视觉两种方式操作电脑——既能写 Playwright 代码自动化浏览器,也能根据屏幕截图直接发出鼠标和键盘命令。citationcitation

OpenAI 还发布了一个新的 Skill 叫 playwright-interactive,允许 Codex 同时以代码和视觉的两种方式调试 Web 和 Electron 应用。

这意味着什么?意味着你的小龙虾可以像人一样操作你电脑上的任何软件——不只是浏览器,而是整个操作系统。这是真正的“数字员工”。

GPT-5.4 的上下文窗口从 GPT-5.3 的 40 万 token 直接翻倍到 100 万 token

对 Agent 来说,这太重要了。因为 Agent 在执行任务的时候,需要保持对整个任务的上下文理解。如果上下文窗口不够大,Agent 干着干着就会忘事儿,前面说的东西后面就不记得了。

100 万 token,基本上足够应对绝大部分的 Agent 任务了——分析整个代码库、处理长文档集合、执行复杂的多步骤工作流,全都不在话下。

当然,OpenAI 也不傻,他们说超过 27.2 万 token 之后,你的额度就算两倍了。但因为 Codex 给的额度实在是太多太多了,所以即使是 2 倍,其实也还好。

这是一个被很多人忽略、但其实超级重要的特性。

以前,当模型被赋予工具时,所有工具定义都会预先包含在提示中。对于拥有大量工具的系统,这可能会为每个请求增加数千甚至数万个 token,而且绝大多数的时候,都毫无意义,平白无故导致成本上升、响应变慢。

GPT-5.4 支持了工具搜索——模型不再直接接收完整工具定义,而是接收一份可用工具的轻量列表以及工具搜索功能。当模型需要使用某个工具时,它可以查找该工具的定义并在当时将其追加到对话中。

OpenAI 在测试中发现,工具搜索配置在保持相同准确率的同时将总体 token 使用量减少 47%

这个优化非常像 Skills 渐进式呈现的方式,目的很简单:优化上下文工程,让 Agent 更快、更省钱。


Claude用户破防

GPT-5.4 发布后,Reddit 上的 r/ClaudeAI 社区出现了大量讨论帖,标题都是“ChatGPT 5.4 vs Claude Opus 4.6”。

讨论的核心不是能力,而是性价比

Claude Opus 4.6 的 API 价格是  25 每百万 token(输入/输出),GPT-5.4 是  12.50,只有 Claude 的一半

更关键的是,GPT-5.4 可以用 Codex 订阅额度(每月 \(20),而 Claude 在 OpenClaw 上只能用 API。这意味着:</span></p><ul style="padding-left: 26px;list-style-type: disc;color: #F89A3A;margin: 8px 0 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;" class="list-paddingleft-1"><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span style="color: #2c2c2c;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span leaf="">用 GPT-5.4</span></strong><span leaf="">:每月 \)20,无限制使用(有额度限制但非常宽松)

  • 用 Claude Opus 4.6:每次调用都要花钱,成本高到让小团队破产
  • 一位用户在社区里说:“这次我彻底没有用 Claude Code 的理由了。GPT-5.4 各方面能力都领先 Claude Opus 4.6,代码能力更不用说,而且‘不怎么说人话’的问题得到了很大的缓解。”

    另一位用户更直接:“用上新的 GPT-5.4 和 GPT-5.4 Pro 了,Claude Max 要不退我点钱吧。”

    当然,也有 Claude 的忠实用户在反驳:“即使 GPT-5.4 在技术上可能更强,但 Claude 的用户体验和 Midpage 交互还是更好。”但这种声音明显少数。


    GPT5.4Pro核武器

    除了 GPT-5.4,OpenAI 还发布了 GPT-5.4 Pro——一个更强、更贵、只有 Pro 会员(\(200/月)才能用的版本。</span></p><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span leaf="">GPT-5.4 Pro 在所有测试中都比标准版更强:</span></p><ul style="padding-left: 26px;list-style-type: disc;color: #F89A3A;margin: 8px 0 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;" class="list-paddingleft-1"><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span style="color: #2c2c2c;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span leaf="">BrowseComp(网页浏览)</span></strong><span leaf="">:89.3%,超过 Gemini 3.1 Pro 的 85.9%</span></p></span></li><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span style="color: #2c2c2c;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span leaf="">SWE-Bench Pro(软件工程)</span></strong><span leaf="">:比标准版更高</span></p></span></li><li style="margin: 8px 0;line-height: 1.8 !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span style="color: #2c2c2c;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 6px 0 !important;"><strong style="font-weight: 600;color: #F89A3A !important;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span leaf="">GPQA Diamond(科学推理)</span></strong><span leaf="">:94.4%,与 Gemini 3.1 Pro 基本持平</span></p></span></li></ul><p style="margin: 5px 0 20px !important;line-height: 1.75em !important;text-align: start !important;font-size: 16px;font-weight: 400;color: #2c2c2c !important;font-weight: 400 !important;word-break: break-all;font-family: PingFang SC,system-ui,-apple-system,BlinkMacSystemFont,Helvetica Neue,Hiragino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;"><span leaf="">但对于大多数人来说,GPT-5.4 Pro 太贵了,也没啥大用。标准版的 GPT-5.4 Thinking 已经足够强大,而且只需要 \)20/月的 Plus 订阅。当然,不差钱的请继续。


    GPT-5.4 的发布,代表了 OpenAI 的一个产品哲学:用一个超强的通用模型,替代多个特化模型。

    以前,OpenAI 有 GPT-5.2(通用)、GPT-5.3-Codex(编程)、GPT-5.2 Thinking(推理)。现在,GPT-5.4 把这三个模型的能力全部整合到一起。

    这个策略的好处是:用户不需要在不同模型之间切换,不需要判断“这个任务该用哪个模型”,直接用 GPT-5.4 就行了。

    但这个策略也有风险:如果某个特定场景下,特化模型的表现更好怎么办?比如 Claude Opus 4.6 在 SWE-Bench Verified 上的得分依然是最高的。

    一位行业观察者说得很精准:“最好的工程和商业团队会采用多模型策略,将任务路由到最适合每个工作流的模型——同时捕获 GPT-5.4 的计算机使用能力、Gemini 的推理成本比,以及 Opus 的编码精度。”

    但对于普通用户和小团队来说,GPT-5.4 已经足够好了。它不需要是每个维度上的第一名,只需要在综合能力、价格、易用性上做到最优平衡——而这正是 OpenAI 最擅长的。


    GPT-5.4 的发布,标志着 AI Agent 进入了一个新阶段。

    过去,我们讨论 Agent 的时候,讨论的是“AI 能不能完成任务”。现在,我们讨论的是“AI 能不能像人一样工作”。

    GPT-5.4 用 83% 的专业工作完成率、75% 的计算机操作能力、100 万 token 的上下文窗口,给出了一个明确的答案:可以。

    而且,这个答案不是实验室里的 demo,而是每个人都能用上的产品。

    一位 OpenClaw 用户在凌晨 6 点发帖说:“我等到了凌晨 6 点多,OpenClaw 目前还没有支持 GPT-5.4。不过估计我一觉睡醒,估计小龙虾就支持了。因为社区里已经看到很多用户在催了,而且先行官们,都普遍反馈效果很好。坐等支持,我真的已经迫不及待了。”

    我和多位好友早上测试了,更新openclaw重新授权,但是还未出现5.4,有的还是可以的,极客可以继续,建议稍等下更新版。

    这种迫不及待,不是因为 GPT-5.4 跑分高,而是因为它真的能改变工作方式。

    当一个 AI 可以操作你的电脑、理解你的意图、记住所有上下文、用人话跟你沟通、还比人类专家做得更好——这不是工具,这是同事。


    如果你还没用过 AI Agent,GPT-5.4 是一个很好的开始时机。

    如果你已经在用 OpenClaw,记得 OpenClaw 支持后,把默认模型切换到 GPT-5.4。

    如果你是 Claude 的付费用户,认真考虑一下 GPT-5.4 是不是更适合你——至少在编程、Agent、计算机操作这些场景下。

    如果你是企业用户,OpenAI 还发布了 ChatGPT for Excel 和 Google Sheets(Beta 版),可以直接在电子表格里调用 GPT-5.4,构建、分析、更新复杂的财务模型。

    2026 年,真是疯狂的一年。

    每个月都有新模型发布,每次发布都在改写规则。但 GPT-5.4 这次不一样——它不只是在某个维度上做到最强,而是在综合能力、价格、易用性上做到了最优平衡。

    这才是真正的“iPhone 时刻”。


    image.png

    相关信息:

    • GPT-5.4 现已在 ChatGPT、Codex 和 API 中上线
    • GPT-5.4 Thinking 面向 Plus、Team 和 Pro 用户开放
    • GPT-5.4 将在三个月后替代 GPT-5.2 Thinking
    • ChatGPT 免费用户也能使用 GPT-5.4,但仅在查询被自动路由到该模型时

    既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧~


    小讯
    上一篇 2026-03-09 07:15
    下一篇 2026-03-09 07:18

    相关推荐

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
    如需转载请保留出处:https://51itzy.com/kjqy/208707.html