AI首次能直接接管电脑,ChatGPT 5.4 深夜炸场,能力让人头皮发麻

AI首次能直接接管电脑,ChatGPT 5.4 深夜炸场,能力让人头皮发麻昨夜凌晨 当大多数人还在睡梦中时 AI 行业悄然迎来一场地震 OpenAI 毫无预兆地丢出了 GPT 5 4 没有预热 没有预告 就像一位绝世高手突然亮剑 剑锋直指整个 AI 江湖的王座 这一次 它带来的不是简单的版本迭代 而是一次认知革命 AI 第一次真正学会了 用手 而不仅仅是 动口 过去 无论 AI 多么聪明 它始终是个 顾问 你可以问它问题 让它写邮件 生成代码 但最后点击 发送

大家好,我是讯享网,很高兴认识大家。




讯享网

昨夜凌晨,当大多数人还在睡梦中时,AI行业悄然迎来一场地震。

OpenAI毫无预兆地丢出了GPT-5.4,没有预热,没有预告,就像一位绝世高手突然亮剑,剑锋直指整个AI江湖的王座。

这一次,它带来的不是简单的版本迭代,而是一次认知革命——AI第一次真正学会了“用手”,而不仅仅是“动口”

过去,无论AI多么聪明,它始终是个“顾问”。你可以问它问题,让它写邮件、生成代码,但最后点击“发送”、运行程序、整理文件的,还是你自己。

GPT-5.4彻底打破了这层隔阂。

它被OpenAI明确定位为 “专业工作模型” 。这意味着什么?意味着它不再满足于当你的智能百科全书,而是要坐到你的工位上,亲手完成那些曾经专属人类的工作。

“AI不再只是回答问题,而是开始真正完成工作流程。” 这句来自官方的话,精准概括了这场变革的核心。

这是GPT-5.4最让人头皮发麻的能力。

它可以直接“看”你的电脑屏幕——通过截图,理解你正在使用的软件界面。然后,它能像真人一样操作:移动鼠标、点击按钮、输入文字、切换窗口。

你可以让它:“把昨天收到的所有发票PDF整理到‘2026年3月’文件夹,提取金额做成Excel表格,然后发邮件给财务。”

接下来,你就能亲眼看着鼠标指针自己动起来,一个个任务被流畅执行。这不再是实验室的演示,而是已经上线的真实能力。

数据为证:在衡量桌面操作能力的OSWorld基准测试中,GPT-5.4达到了75%的成功率。这个数字为什么惊人?因为人类在该测试中的平均成绩是72.4%。是的,在操作电脑完成特定任务这件事上,AI首次超过了普通人的平均水平。

相比之下,上一代GPT-5.2只有47.3%,而一个月前还被认为领先的Claude Opus 4.6,成绩是72.7%。GPT-5.4不仅完成了超越,更是树立了新的标杆。

以往,你需要不同的AI工具来处理不同任务:用Claude Opus进行复杂推理,用GPT-5.3 Codex专门写代码,再配置各种工具插件。

GPT-5.4结束了这种“拼凑式”的工作流。

它把最强的推理大脑、最专业的编程大脑、最高效的工具调用能力,全部整合到了一个系统里。你可以用同一个模型,完成从业务分析、到代码实现、再到实际部署的完整链条。

在专业编程测试SWE-Bench Pro中,它拿下57.7%的准确率,与专门的编程模型GPT-5.3 Codex(56.8%)旗鼓相当。在涵盖金融、法律、销售等44个真实职业的GDPval测试中,它以83%的胜率追平甚至超越了行业专家,而GPT-5.2只有70.9%。

AI智能体(Agent)一直面临两大难题:记不住长任务、用工具太烧钱。

GPT-5.4给出了双重解决方案:

  • 100万Token上下文
    :相当于一次性能吃下整个代码库或几百页报告,长期任务不再“健忘”。
  • 革命性的“工具搜索”
    :以前使用几十个工具,每次都要把全部工具说明书塞给AI,导致大量资源浪费。现在,AI只需要知道工具列表,用到哪个再临时去查。这一改变,在实测中 将Token消耗直接砍掉47% ,让复杂Agent的大规模应用成为可能。

面对Claude、Gemini等强劲对手,GPT-5.4靠什么守住王座?

1. 对阵Claude Opus 4.6:综合战力碾压
Claude在长上下文和文档处理上一直口碑载道,但在GPT-5.4面前,其优势领域被全面侵入:

  • 电脑操作
    :GPT-5.4(75.0%)> Claude(72.7%)> 人类(72.4%)
  • 知识工作
    :GPT-5.4(83.0%)> Claude(约78%)
  • 编程综合
    :GPT-5.4将编码能力深度融合,无需切换模型

2. 对阵Gemini 3.1 Pro:打破“单项冠军”神话
Gemini在数学和科学推理上表现亮眼,但GPT-5.4展示的是“六边形战士”的恐怖:

  • 推理能力
    :在ARC-AGI-2测试中,GPT-5.4 Pro(83.3%)> Gemini 3.1 Pro(77.1%)
  • 实际工作
    :GPT-5.4在电子表格建模、PPT生成等办公场景中,表现出远超竞品的实用性和可靠性。

3. 真正的降维打击:原生操控生态
这才是GPT-5.4最深的护城河。当其他AI还在通过API和插件间接影响世界时,GPT-5.4已经能直接“上手”了。它与OpenClaw等开源Agent框架的契合度,被开发者称为“天选模型”,正在催生新一代个人自动化助手。

想象这些场景:

  • 程序员
    :不再只是让AI写代码片段,而是让它直接接手一个功能模块:写代码、运行测试、调试错误、提交仓库。
  • 分析师
    :给出指令,AI自动爬取数据、清洗整理、生成图表、撰写分析报告,一气呵成。
  • 普通办公族
    :每天重复的邮件处理、数据录入、文件整理,全部交给AI助理。

这不再是科幻。GPT-5.4的标准版和Pro版已经上线,虽然Pro版本价格高昂(输入30美元/百万Token),但标准版已具备绝大多数颠覆性能力。

OpenAI用GPT-5.4传递了一个清晰信号:AI竞争的焦点,已从“谁更聪明”转向了“谁能干更多活”。

它可能不完美,长上下文的实际利用率、高昂的成本仍是挑战。但当AI第一次在操作电脑这件事上超越人类平均水平时,一个新时代的大门已经打开。

这一次,压力真的来到了DeepSeek和其他竞争者这边。我们期待的,不再只是下一个“更聪明的聊天机器人”,而是下一个“更能干的数字同事”。


这场AI进化,你怎么看?你准备好让AI接管你的电脑了吗?

点赞支持深度解析,关注获取最新AI前沿动态,收藏这份能力对照表,随时查看。

评论区留下你的观点:GPT-5.4最让你震撼的能力是什么?你认为它最先替代的会是哪个职业?

小讯
上一篇 2026-03-09 08:02
下一篇 2026-03-09 08:04

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/208783.html