GPT-5.4！「Agent 原生」大模型来了？

大家好，我是讯享网，很高兴认识大家。
 <div class="img_wrapper"><img src="https://k.sinaimg.cn/n/sinakds/229/w660h369//4f46-b1cfb4240db85a4f4ef6948db08b97ee.jpg/w700d1q75cms.jpg?by=cms_fixed_width" w="660" h="369" wh="1.79"/></div><p cms-style="font-L">　　OpenAI 终于想明白了。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">作者｜桦林舞王</font></p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">编辑｜</font>靖宇</p><p cms-style="font-L">　　在传闻刚刚两天后，当地时间 3 月 5 日，OpenAI 就正式推出 GPT-5.4。而这次模型更新，主打的正是当下最火热的 AI Agent 方向。</p><p cms-style="font-L">　　在 GPT-5.4 之前，大模型的能力边界可以用一句话总结：它能告诉你「怎么做」，但它自己做不了。</p><p cms-style="font-L">　　你让它帮你分析竞争对手，它会给你一份洋洋洒洒的文字报告；你让它整理 Excel，它会写一段 Python 代码让你自己去跑；你让它帮你订机票，它会一步一步告诉你去哪个网站、点哪个按钮。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">中间那道墙，叫做「计算机操作」</font>。</p><p cms-style="font-L">　　GPT-5.4 是 OpenAI 第一个把这道墙拆掉的通用模型。</p><div class="img_wrapper"><img src="https://k.sinaimg.cn/n/sinakds/176/w660h316//cbdd-54f3bb57d1f62058a19bac71adcd4b39.jpg/w700d1q75cms.jpg?by=cms_fixed_width" w="660" h="316" wh="2.09"/></div><p cms-style="font-L">　　它可以通过截图识别屏幕内容，发出鼠标和键盘指令，在不同应用之间执行多步工作流。用 OpenAI 自己的话说，这是他们「<font cms-style="font-L strong-Bold">迄今为止面向专业工作最强大、最高效的前沿模型</font>」。</p><p cms-style="font-L">　　更技术一点，GPT-5.4 支持高达 100 万 token 的上下文窗口，并且可以调用 Playwright 等库，直接操控浏览器和桌面应用。</p><p cms-style="font-L">　　这意味着它<font cms-style="font-L strong-Bold">处理的不再是「关于任务的对话」，而是「任务本身」</font>。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">01</font></p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">OpenAI 的铺垫</font></p><p cms-style="font-L">　　如果你一直在跟踪 OpenAI 最近几个月的动作，会发现 GPT-5.4 不是一个突然冒出来的产品，而是一条清晰战略线上的最新落子。</p><p cms-style="font-L">　　就在两周前，OpenAI 刚刚发布了 GPT-5.3-Codex，把 Codex 从「能写代码的 Agent」升级为「几乎能做开发者在电脑上所有事情的 Agent」，并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行业基准。</p><p cms-style="font-L">　　与此同时，OpenAI 推出了面向企业的「Frontier」平台，HP、Intuit、Uber 已经是早期用户。</p><div class="img_wrapper"><img src="https://k.sinaimg.cn/n/sinakds/111/w660h251//0e93-2c930eaf216e9cd83e4e3.jpg/w700d1q75cms.jpg?by=cms_fixed_width" w="660" h="251" wh="2.63"/></div><p cms-style="font-L">　　更早之前的 3 月 2 日，OpenAI 和 AWS 把原有的 38 亿美元合作扩大到超过 1000 亿美元，为期 8 年，AWS 成为 OpenAI Frontier 平台的独家第三方云分发商。这笔钱的规模，本身就是一个信号。</p><p cms-style="font-L">　　1100 亿美元的最新融资轮，由 Amazon、SoftBank 和 Nvidia 各出数百亿美元撑起来，也在同期落地。</p><p cms-style="font-L">　　这不是一家在「研发好产品」的公司，这是一家在全力冲刺「赢得企业 AI Agent 市场」的公司。</p><p cms-style="font-L">　　GPT-5.4 的原生计算机操作能力，正是这场冲刺的关键武器。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">02</font></p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">真的好用吗？</font></p><p cms-style="font-L">　　发布会上的功能演示永远很好看，问题在于实际表现。</p><p cms-style="font-L">　　金融科技公司 Walleye Capital 在内部测试中报告，GPT-5.4 在 Excel 财务模型评估里，把准确度提高了 30 个百分点，显著加快了情景分析的自动化流程。</p><p cms-style="font-L">　　人才评估平台 Mercor 的 CEO 则直接称其为「<font cms-style="font-L strong-Bold">我们测试过的最好模型</font>」，在处理幻灯片制作、财务建模和法律分析等长周期任务上表现突出。</p><p cms-style="font-L">　　一位每天使用 Codex 的独立开发者，给出了更接地气的评价：「GPT-5.4 是我在 Codex 里的新日常驱动。它的思考方式更接近人类，没有 5.3 那么痴迷于技术细节。」但他也加了一句提醒——「<font cms-style="font-L strong-Bold">要小心，我遇到过几次模型错误执行任务却隐瞒这一事实的情况</font>。」</p><div class="img_wrapper"><img src="https://k.sinaimg.cn/n/sinakds/197/w660h337//d231-dde309fa.jpg/w700d1q75cms.jpg?by=cms_fixed_width" w="660" h="337" wh="1.96"/></div><p cms-style="font-L">　　这个细节值得玩味。</p><p cms-style="font-L">　　基准测试数据也在印证这种能力的提升。据报道，<font cms-style="font-L strong-Bold">GPT-5.4 在 GDPval 基准上的表现超过了 83% 的普通办公室员工</font>。这个数字听起来很炸，但真正的问题不是「它能超过多少人」，而是「在哪些任务上能替代人」。</p><p cms-style="font-L">　　不过，爱丁堡大学信息学院的 Jeff Dalton 博士也指出了一个现实问题——目前的演示里，几乎没有足够详细的评估证据来支撑那些宏大的说法。能力是真实的，但边界在哪里，还需要更多独立验证。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">03</font></p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">Agent 战场，没有安全区</font></p><p cms-style="font-L">　　如果说 GPT-5.4 代表 OpenAI 的 Agent 野心，那竞争对手们并没有闲着。</p><p cms-style="font-L">　　Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上线了「Computer Use」功能，Anthropic 把它定位为专为复杂任务设计的混合推理模型。</p><p cms-style="font-L">　　Google 的 Gemini 2.0 系列也在「Agentic」能力上持续发力，Project Mariner 已经可以在 Chrome 浏览器里自主完成多步操作。</p><p cms-style="font-L">　　但 GPT-5.4 和竞品的本质差异，<font cms-style="font-L strong-Bold">在于它是 OpenAI 第一个把计算机操作能力，内置进通用模型的产品</font>——不是一个独立工具，不是需要额外调用的 API，而是模型本身就带着这个能力。</p><p cms-style="font-L">　　这个「原生」二字，在工程实现上意味着什么，说白了就是更低的延迟、更自然的任务衔接、更少的「胶水代码」。对于想快速落地 Agent 应用的企业来说，这个区别直接影响部署成本。</p><p cms-style="font-L">　　OpenAI 还宣布 GPT-5.4 可以直接接入微软 Excel 和 Google Sheets，在单元格层面完成粒度分析和自动化操作。这一步，明显是在打企业决策流程的核心地带。</p><p cms-style="font-L">　　Agent 的战场，从来就不是哪家跑得快，而是谁能最先把自己嵌进企业工作流里，成为那个「拔不掉的存在」。</p><p cms-style="font-L">　　技术发布会总是充满激情，但真正的考验在第 91 天——那时候热度散去，用户在真实工作场景里打开这个工具，它能不能稳稳接住那个截图，准确点下那个按钮，安静地把任务跑完，然后把结果交回来。</p><p cms-style="font-L">　　那个开发者说的「隐瞒错误」，是我目前看到的这篇报道里最值得警惕的一句话。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">AI Agent 能力的天花板，从来不是「它能做什么」，而是「你敢不敢信任它去做」</font>。</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">信任，才是这场 Agent 战争真正的货币</font>。</p><p cms-style="font-L">　　*头图来源：OpenAI</p><p cms-style="font-L">　　本文为极客公园原创文章，转载请联系极客君微信 geekparkGO</p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">极客一问</font></p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">你认为 GPT-5.4 会不会是</font></p><p cms-style="font-L">　　<font cms-style="font-L strong-Bold">OpenClaw 新的**拍档？</font></p><div class="img_wrapper"><img src="https://k.sinaimg.cn/n/sinakds/32/w660h172//35b3-5f356a35d301bd8c1ade78b689e4a597.jpg/w700d1q75cms.jpg?by=cms_fixed_width" w="660" h="172" wh="3.84"/></div> <div style="font-size: 0px; height: 0px; clear: both;"></div>
讯享网
GPT-5.4！「Agent 原生」大模型来了？

相关推荐