讯享网
昨天,OpenAI 刚用主打日常对话优化的“GPT-5.3 Instant”和大家热身,今天凌晨直接投下了一枚深水炸弹!
伴随着 OpenAI 官方在 X(原 Twitter)上一句极具暗示性的推文,这场大模型之战再次迎来了巅峰时刻。
“5.4 sooner than you Think.” [Source: OpenAI Official X]
各大科技媒体和开发者社区一夜之间被引爆,纷纷直呼:“Vibe Check: OpenAI Is Back(OpenAI 重回巅峰)!” 就在刚刚,OpenAI 正式宣布推出全新一代旗舰大模型——GPT-5.4!
作为一款“专为专业工作设计(Designed for professional work)”的全新底座,GPT-5.4 不仅带来了极致的推理和百万级上下文,甚至还长出了“眼睛和手”。它到底有多强?让我们一探究竟!
如果你觉得之前的 AI 只是个聪明的“实习生”,那么 GPT-5.4 则是一个拿着高薪的“行业老兵”。 根据 OpenAI 公布的数据,在涵盖 44 个不同职业的 GDPval 复杂知识工作基准测试中,GPT-5.4 创造了惊人的纪录。
🏆 胜率全面超越人类
- 惊人胜率:在 83.0% 的测试对比中,GPT-5.4 的表现打平甚至超越了各行各业的人类专业人士(上一代 GPT-5.2 的胜率仅为 70.9%)。
- 高门槛领域游刃有余:它可以轻松处理投行级别的财务模型电子表格(得分高达 87.3%),生成极具视觉美感的 PPT,甚至能极其精准地完成冗长的法律合同分析。 [Source: OpenAI Official Benchmark]
🛡️ 史无前例的“低幻觉”
大家最头疼的“AI 幻觉”问题也得到了大幅改善:
- 单项事实错误率降低了 33%。
- 整体回答包含错误的概率降低了 18%。
- 关键预警:这是 OpenAI 迄今为止“最严谨”的模型,适用于对准确度要求极高的严肃商业场景。
这是 GPT-5.4 最让人震撼的升级——它成为了 OpenAI 首个内置原生“计算机使用(Computer-use)”能力的主力模型!
🖱️ 化身你的“数字替身”
- 超高精度视觉:GPT-5.4 可以直接看懂你的电脑屏幕,支持最高 1024 万像素超高精度视觉。
- 全场景模拟操作:它能够模拟鼠标点击、滑动和键盘输入,跨软件系统替你干活。以后,帮你在几十个网页间抓取数据、自动发邮件、排日程、甚至操作复杂的内部 ERP 系统,都只需你一句话。
📈 测试成绩击败人类平均水平
- 在测试模型导航桌面环境能力的 OSWorld-Verified 基准中,GPT-5.4 的成功率飙升至 75.0%,直接超越了人类的平均水平(72.4%)! [Source: OSWorld Benchmark Data]
还在抱怨上下文不够用?GPT-5.4 这次在容量和深度上都给出了顶格配置。
📚 百万级上下文一口气吃透
- 直接带来了 105万(1,050,000)Token 的超大上下文窗口!无论你是丢给它一整个庞大的代码库,还是几百页的商业机密文档,它都能轻松消化。
🧠 双模齐发:Thinking 与 Pro
在 ChatGPT 的网页端和 App 中,OpenAI 同步上线了两个全新版本:
- 🤔 GPT-5.4 Thinking(思考版):具备“极致推理”能力。在回答复杂长问题前,它会先给出一份“思考计划”。最神奇的是,你可以在它思考的过程中途进行干预和调整方向,一步到位直达完美结果,彻底告别反反复复的 Prompt 修改。
- ⚡ GPT-5.4 Pro(专业版):专为需要最高性能、最复杂的硬核多步任务量身打造。
GPT-5.4 完美融合了前不久刚发布的 GPT-5.3-Codex 的顶尖代码能力,并带来了颠覆性的开发体验。
💻 可视化 Debug 边写边测
- OpenAI 推出名为 “Playwright (Interactive)” 的实验性功能。它可以一边写代码,一边在浏览器里替你进行视觉化的 Debug 和测试运行! * 官方演示中,AI 直接从零开始写出了一个复杂的游乐园模拟游戏,还自己跑去测试了游客排队系统。
🔍 Tool Search:省钱增效利器
- API 端引入的 Tool Search(工具搜索)功能堪称神来之笔。当你的智能体(Agent)拥有成百上千个外部工具时,它能像查字典一样“按需搜索”工具定义。
- 核心结论:这项技术让多步骤工具调用的 Token 消耗量直接锐减了 47%!又快又省钱! [Source: OpenAI API Release Notes]
这么恐怖的模型,价格如何?OpenAI 再次举起了价格屠刀。
💰 “骨折价”的 API 成本
- 输入:只需 \(2.5 / 1M Tokens(如果命中缓存,低至白菜价的 </span><b data-path-to-node="40,0,0" data-index-in-node="37" style="animation: auto ease 0s 1 normal none running none;appearance: none;background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);border: 0px none rgb(31, 31, 31);inset: auto;clear: none;clip: auto;color: rgb(31, 31, 31);columns: auto;contain: none;container: none;content: normal;cursor: auto;cx: 0px;cy: 0px;d: none;direction: ltr;display: inline;fill: rgb(0, 0, 0);flex: 0 1 auto;float: none;gap: normal;hyphens: manual;interactivity: auto;isolation: auto;margin-right: 0px;margin-bottom: 0px;margin-left: 0px;marker: none;mask: none;offset: normal;opacity: 1;order: 0;orphans: 2;outline: rgb(31, 31, 31) none 0px;overlay: none;padding: 0px;page: auto;perspective: none;quotes: auto;r: 0px;resize: none;rotate: none;rx: auto;ry: auto;scale: none;speak: normal;stroke: none;transform: none;transition: all;translate: none;visibility: visible;widows: 2;x: 0px;y: 0px;zoom: 1;margin-top: 0px !important;font-family: "Google Sans Text", sans-serif !important;"><span leaf="">\)0.25!)。
- 输出:$15 / 1M Tokens。
- 关键结论:无论是综合成本还是响应速度,GPT-5.4 都大幅优于上一代 GPT-5.2。
🚀 全面推送时间表
- ChatGPT 用户:今天起,GPT-5.4 Thinking 和 Pro 版本将逐步向 Plus、Team 和 Enterprise 用户推送。
- 未来规划:将在未来几个月内全面取代 GPT-5.2!
从前天的 GPT-5.3 Instant,到今天的 GPT-5.4,OpenAI 用一套令人窒息的组合拳,狠狠回击了市场上关于“OpenAI 创新停滞”的质疑。更强的推理、更少的幻觉、碾压人类的电脑原生操作能力、百万上下文……
面对 Claude 和 Gemini 的步步紧逼,那个熟悉的“ChatGPT”终于完成了进化。王者归来,AI 的下半场,才刚刚开始。
💡 喜欢这篇文章的话,别忘了点赞、在看并分享给你的朋友哦!关注我们,每天获取最新最硬核的 AI 科技资讯!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/208701.html