ChatGPT 5.4 的发布对世界意味着什么

ChatGPT 5.4 的发布对世界意味着什么那天晚上我刷到一条推送 OpenAI 刚发布完 GPT 5 3 Instant 才过了 48 小时 GPT 5 4 又来了 我第一反应是 这是不是又一轮 营销烟花 可当我点开解读视频 一路往下看 Chrome 标签页从 20 个涨到 50 个 最后停在一个荒诞的数字 76 个 我突然意识到 我们可能正进入一个更糟糕的阶段 不是 你会不会用 AI 而是 你敢不敢不用 AI AI

大家好,我是讯享网,很高兴认识大家。



封面
讯享网

那天晚上我刷到一条推送:OpenAI 刚发布完 GPT 5.3 Instant,才过了 48 小时,GPT 5.4 又来了。

我第一反应是——这是不是又一轮“营销烟花”?可当我点开解读视频、一路往下看,Chrome 标签页从 20 个涨到 50 个、最后停在一个荒诞的数字:76 个。

我突然意识到:我们可能正进入一个更糟糕的阶段——不是“你会不会用 AI”,而是“你敢不敢不用 AI”。


配图

AI 领域最折磨人的地方,不是进步太慢,而是进步太快、消息太乱、叙事太满。

你会看到:语焉不详的预热、先给“夸夸团”的早期权限、泄露的系统卡、互相指控、预测市场的操纵、以及公司自己发明的新基准……一切都像是故意把水搅浑,让你分不清“能力提升”和“话术升级”。

但这次 GPT 5.4 的信号很明确:OpenAI 不再只做“更会聊天的模型”,它在做一种面向所有白领的——通用代理(generalist agent)。

不是写文案、改 PPT、做总结那种“辅助工具”,而是冲着“把你的工作流程整段吞掉”去的。

“Ignoring frontier AI developments is becoming more expensive for professionals than ever.”
“对专业人士来说,忽视前沿 AI 的发展正在变得前所未有地昂贵。”
— 01:12(视频时间)

这句话听着像鸡汤,但配合 GPT 5.4 的定位,它更像警报:你不跟进,就不是落后一点点,而是你的“单位产出成本”会被同行直接打穿。


配图

OpenAI 这次的主叙事很简单:我在白领工作上,已经能赢人类了。

他们拿出了一个新基准:GDPval。听名字就知道——以对 GDP 影响来挑选职业,覆盖 44 类白领职业任务,让专家盲评,把模型输出和人类“首稿”对比。

结果很炸:

“GPT 5.4 beats humans’ first attempt 70.8% of the time; including ties, it’s 83%.”
“GPT 5.4 在 70.8% 的情况下胜过人类第一次尝试;算上平局则达到 83%。”
— 03:48(视频时间)

但这里最危险的不是数字本身,而是数字背后的错觉

视频里点出了几个很多人会忽略的“暗坑”:

1. 任务是“自包含、数字化”的切片
它不等于一个职业的全部目标与责任。职业不是做题,职业还包含沟通、追责、判断、伦理与后果。
2. 模型一旦犯错,可能是灾难性错误
人类也会错,但人类很少用一种“像对的一样”的方式把错做到底。
3. 更尴尬的一点:更贵的 Pro 反而更差
叙事上最想推的版本,却在这个基准上掉链子——这件事本身就说明:你看到的“头条”,很可能只是某一组指标的局部胜利。

而最让人脊背发凉的比喻是:自动驾驶。

也许它还不够安全,但它可能已经跨过了那条线——按“每英里”计,它开始比人类更好了。而白领工作的计量单位是什么?每张表格、每份报告、每次检索、每封邮件、每个工单。

一旦跨线,采用就只是时间问题。


配图

你以为最可怕的是“它很强”。
不,最可怕的是:它强,但它错的时候更敢编。

在 Artificial Analysis 的幻觉测试里,GPT 5.4 总体准确率接近最先进水平——听上去还不错。可关键是另一个指标:它一旦错了,更倾向于给你一个“看起来很合理”的答案,而不是承认不知道。

“When GPT 5.4 is wrong, it’s more likely to confabulate an answer.”
“当 GPT 5.4 出错时,它更可能胡编一个答案。”
— 06:25(视频时间)

这会把 AI 从“工具风险”升级为“管理风险”。

因为在办公室里,真正致命的不是你交不出东西,而是你交出了东西、还显得很专业,然后:

- 数据来源是编的
- 引用文献不存在
- 结论逻辑自洽但前提是假的
- 表格公式跑偏但排版完美
- 最后责任落在签字的人身上——也就是你

如果你是管理者,这句话你得听进去:
别让老板看到“83% 不输人类”的标题,就把流程整段外包给模型。
你得做的是“把模型放进流程”,而不是“把流程交给模型”。


配图

接下来视频把热度拉回来了:几乎半自主的软件开发,正在变成现实。

作者在 OpenAI 的 Codex(Windows/Mac 可用)里提了一个需求:为 Stockport County FC 做一个赛季积分榜动画网页。模型 one-shot 生成了一个漂亮页面,还能播放赛季过程、看到名次变化。

这意味着什么?

意味着 OpenAI 正在把“会写代码”“会找资料”“会运行调试”“会在软件环境里操作”这些分散能力——整合成一个能自己推进任务的代理

更关键的是“闭环”。

所谓闭环,不是模型写完就结束,而是它能:

1. 看见屏幕上的结果
2. 点击、运行、测试
3. 发现错误
4. 继续迭代修正

“The loop is almost closed.”
“闭环几乎被合上了。”
— 10:02(视频时间)

视频里有个很直观的例子:让模型做“维京人入侵英格兰时间线”的交互式战役地图。第一次做出来不够准,地理位置有错、图形也缺。作者吐槽得很刻薄,但现实就是:它不是一次生成的神迹,它需要回看、回改。

可当模型能自己“看见并点击”,它就能把“回看回改”变成自动化。

如果这种闭环能力迁移到你的日常工具——Excel、Word、PPT——会发生什么?

你会看到那种恐怖的分界线:左边是 GPT 5.4 生成的版本,右边是旧模型生成的版本。不是“更像人类”,而是“更像职业人士”。

那一刻你会明白:它不是在抢你的某个技能点,它在抢你的“整套交付”。


配图

就在你以为火车要冲进奇点,视频突然踩了刹车:AI 的进步是尖刺式的。

它可能在某个领域像开挂一样爆炸,但在另一个领域却像没学过。

系统卡里有一组对比很刺眼:

- 内部机器学习基准:从 12% 到 23%,进步明显
- 但在 OpenAI Proof Q&A(真实研究/工程瓶颈题)上:GPT 5.4 thinking 竟然不如 GPT 5.3 Codex,甚至不如更老的版本

这就是当下最大的争论点:
到底是“泛化会越来越强”,还是“每个领域都得靠稀缺高质量数据堆出来”?

如果是后者,我们就会长期活在这种世界:有的地方像天神下凡,有的地方像实习生乱按。

与此同时,还有一个更贴近职场的风险:破坏性操作。

模型当代理用电脑时,可能会删文件、覆盖代码、把你另一个标签页里正在编辑的表格给保存替换——这种事故在代理时代会变得更常见。

“We’ve all heard stories of agents deleting hard drives, overwriting code…”
“我们都听过代理删硬盘、覆盖代码之类的故事。”
— 14:18(视频时间)

所以别只盯着“它能做什么”,还要盯着“它出错时会怎么毁你”。


配图

视频里最震撼的段落,不是基准,不是产品,而是一句人类的感受。

在 Epoch AI 的 Frontier Math 第 4 级问题上,一位数学家亲眼看到 GPT 5.4 解出了一个他策划了近 20 年的任务。他把那一刻比作 AlphaGo 的 Move 37——那种“你突然意识到对手不在同一维度”的感觉。

“My singularity just happened.”
“我的奇点刚刚发生了。”
— 16:55(视频时间)

这句话为什么刺耳?

因为它提醒你:所谓“只是增量更新”,从来只是站在时间线里的错觉。你每天看 1% 的进步,会觉得平平无奇;但当某一天它跨过你毕生经验构成的那条线,你会发现自己已经站在旧世界的废墟上。

更复杂的是:作者自己的“刁钻常识基准”(simple bench)里,GPT 5.4 表现反而一般,但 GPT 5.4 Pro 得分又很夸张。

这意味着什么?
意味着你很难用单一叙事总结它:它既可能真突破,也可能在某些指标上刷得很好看。你只能接受一个事实:你需要持续评估,而不是一次站队。


配图

视频后半段画风陡变:从“白领要不要失业”,变成“AI 要不要上战场”。

新闻是这样的:Anthropic 被国防部告知是供应链风险,合同被 OpenAI 拿走。随后 Anthropic CEO Dario Amodei 一份泄露备忘录炸开——他指控 OpenAI 在做“安全洗白”。

他最狠的一句话是:

“It’s 20% real and 80% safety theater.”
“这可能 20% 是真的、80% 是安全戏剧(安全洗白式表演)。”
— 22:41(视频时间)

所谓安全戏剧是什么?
就是在模型上叠一个“安全层/分类器”,看上去有护栏、能拒答,实际上容易绕过。它的作用更像是:让员工、公众、媒体“感觉安全”。

备忘录里还有一段更戏剧性的引述:对方(涉及 Palantir 的安全层方案)被描述为在说——你们有些员工不开心,我们给他们一点东西,让他们消气。

“You have some unhappy employees… you need to give them something… or make what’s happening not visible.”
“你们有些不开心的员工……你们需要给他们一点东西……或者让正在发生的事对他们不可见。”
— 24:10(视频时间)

而 OpenAI 的立场(至少在叙事中)更接近:
政府要用来做什么作战决策,这是政府决定的;你作为员工不该置评。甚至还补了一刀:如果我们不做,别人也会做。

“You don’t get to comment.”
“你无权对此置评。”
— 27:06(视频时间)

但事情很快变得更复杂:媒体又爆出 Claude 在 Palantir 系统内曾建议数百个目标、给出坐标并排序。也就是说,在“谁更安全”这件事上,你很难写出一条简单的正邪线。

视频最后给了一个成熟但刺骨的提醒:在你形成“好人/坏人”的单一叙事前,先承认现实——这是一场能力狂飙与治理边界撕裂的拉扯,没有谁能干净到发光。


配图

如果你是专业人士,这期视频最实用的结论其实很朴素:

- 到 2026 年,不用最好的 AI 工具,是一种高风险选择
- 但用 AI 的方式必须升级:从“问答”升级为“流程控制”
- 不要迷信单模型:Gemini、GPT、Claude 以及大量其他模型(包括中国模型)都要纳入你的工具栈
- 更重要的是:你要建立自己的评测与校验机制——用基准、用盲评、用对照,而不是用“感觉不错”

而对普通人来说,真正的问题可能只有一个:

当 GPT 5.4 这种“白领通用代理”越来越像一个能自己看屏幕、能自己点鼠标、能自己修 bug、还能自己编理由的同事——你要把它当工具,还是当团队成员?
如果它开始“比你更像职业人士”,你准备让它替你交付,还是让它替你决策?

留言告诉我:
你觉得 GPT 5.4 最值得你警惕的是——更强的能力,还是更强的胡编倾向?以及,如果你的老板明天要“全员上 AI”,你会怎么设计护栏?

视频来源:https://www.youtube.com/watch?v=zizoDORjmlQ



如果,

你也对AI、对Vibe Coding、对”一人公司”

感兴趣,加我微信,一起交流,互相进步哇!


小讯
上一篇 2026-03-09 10:45
下一篇 2026-03-09 10:48

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/209071.html