昨天(2026年 3 月 5 日),OpenAI 发布了 GPT-5.4 。
这次更新有一个标志性的节点:上下文窗口拉到了 100 万 token。
至此,OpenAI、Claude、Gemini ,模型界的御三家,全部进入百万上下文时代。
也就是说,AI 一次能「看到」和「记住」的信息量,已经大大提升,不存在连一本书都读不完的尴尬境地了。
除上下文提升外, ChatGPT 5.4 这次有三大核心能力的提升:
-
深度知识工作(Knowledge Work) -
原生计算机使用(Computer Use): AI 可以直接操控电脑,执行跨应用的复杂工作流。 -
高阶编程与调试(Coding)
尤其是第二点「原生计算机使用」。
让 AI 不再仅仅只是一个【吐字工具】,而是长出手脚,能够控制电脑,可以说是这段时间的 AI 热点。
Claude Code、OpenClaw、Codex 之所以热度这么高,也是这个原因。
今天,通过 ChatGPT 的更新,我们也来看看。
目前 AI 控制电脑的两种主流方式(技术路线),以及他们的优缺点。
看看,AI 真正替代人类操控电脑,到底还有多远。
通过 CLI(Command Line Interface),命令行界面控制电脑。
也就是 AI 通过【终端】输入指令来控制电脑。
(PS:就是图片上的这个东西,每个电脑都自带的)
讯享网
你可能见过,程序员在一个黑色窗口里敲代码,文件就自动创建了、程序就跑起来了。
CLI 路线就是让 AI 来做这件事。
Claude Code、Gemini CLI,现在几乎每家大模型公司都推出了自己的命令行 AI 工具,都成为基础标配了。
核心优势:快、准、可批量。
指令直达系统底层,没有中间环节。
比如「批量重命名一千个文件、自动化处理数据、部署一套代码」。
这些标准化的重复劳动,AI 通过命令行做起来比人快几个数量级。
而且命令可以写成脚本,形成可复用的自动化工作流。
但它有一个绕不开的短板:对图形界面软件力不从心。
有些软件天生就是为视觉操作设计的——Photoshop、剪映、达芬奇。
当然,AI 还是可以通过写 Python 脚本从后台去调它们的部分功能,但这跟「像人一样操作它们」完全是两回事。
这类软件的核心操作——拖拽时间线、调整图层、调整色彩曲线——本质上都是视觉驱动的,命令行在这里要么够不到,要么够到了效果也不好。
其次,还有权限问题。
操作系统有沙盒机制、系统保护、应用签名等层层限制,终端并不能触达所有地方。
这就是 GPT-5.4 这次主打的「原生计算机使用」能力。
它的思路完全不同:不是让 AI 写代码来控制电脑,而是让 AI 直接「看屏幕、动鼠标」。
具体来说,AI 截一张屏幕的图,用视觉模型识别界面上的元素。
比如「按钮在哪、输入框在哪、菜单长什么样」,然后模拟鼠标点击、键盘输入、滚动页面来完成操作。
再截一张图看看结果对不对,继续下一步。
目前的局限性:能力还在爬坡。
每一步都要截图、识别、决策、操作,速度远不如一条命令。
而且视觉识别还会出错——比如滚动和缩放这类连续变化的操作,AI 容易「看晕」。
但进步速度非常快。
GPT-5.4 在电脑操作的基准测试(OSWorld)上成功率达到了 75.0%,已经超过了人类测试者的 72.4%。
要知道之前的模型在同一测试上还不到 40%。这说明多模态能力正在快速逼近甚至突破临界点。
最关键的一点:权限问题大大降低。
这是截图识别路线的一个核心优势。 通过 CLI 或 API 去操控软件,经常会碰到权限不够的问题。
但截图识别完全是在物理层面模拟人类的行为——你能点的它都能点,你能看的它都能看。
尤其是在电脑端和网页端,不像 APP 端会有一些截图识别的限制,它的实际操作空间非常大。
这也是为什么目前很多 AI 浏览器,比如 Fellou、OpenAI 的 Atlas、Perplexity 的 Comet等,都在走这条路线。
你的各种账号——小红书、抖音、微信——本来就已经登录在浏览器里了,AI 直接在你已登录的会话里操作,不需要走 API。
而且因为它在模拟真人的浏览行为,平台也很难把它识别为机器人并封禁。
随着多模态能力继续提升,这条路线能操控的软件种类会越来越丰富。
尤其是对 Photoshop、剪映、达芬奇这类视觉为主的工具,截图识别路线可能反而比 CLI 更合适。
目前这两条路线各有优劣:
CLI 快、准、可编排,但碰到图形界面软件就吃力,还受权限限制。
截图识别通用性强、权限问题少,但速度和准确率还在追赶中。
现在很多人说「AI 已经能完成人类在电脑上完成的所有任务」——说实话,这个说法目前还是有点夸大的。
但两条路线都在飞速进步。
尤其是截图识别这条线,从不到 40% 的成功率跳到超越人类水平,只用了不到两年时间。
当两条路线都足够成熟,它们完全可以协同工作。
CLI 负责后台的数据处理和逻辑编排,截图识别负责前台的界面操作和视觉判断。
一个复杂任务里,不同环节调用不同的能力。
到那一天。
电脑端 90% 的工作被 AI 接管——恐怕真就不是一句空话了……
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/208682.html