2026年从 ChatGPT 5.4 的更新,看 AI 控制电脑的两种方式

从 ChatGPT 5.4 的更新,看 AI 控制电脑的两种方式昨天 2026 年 3 月 5 日 OpenAI 发布了 nbsp GPT 5 4 nbsp 这次更新有一个标志性的节点 上下文窗口拉到了 100 万 token nbsp 至此 OpenAI Claude Gemini 模型界的御三家 全部进入百万上下文时代 nbsp 也就是说 AI 一次能 看到 和 记住 的信息量 已经大大提升

大家好,我是讯享网,很高兴认识大家。



昨天(2026年 3 月 5 日),OpenAI 发布了 GPT-5.4 

这次更新有一个标志性的节点:上下文窗口拉到了 100 万 token。 

至此,OpenAI、Claude、Gemini ,模型界的御三家,全部进入百万上下文时代。 

也就是说,AI 一次能「看到」和「记住」的信息量,已经大大提升,不存在连一本书都读不完的尴尬境地了

除上下文提升外, ChatGPT 5.4 这次有三大核心能力的提升

  1. 深度知识工作(Knowledge Work)
  2. 原生计算机使用(Computer Use): AI 可以直接操控电脑,执行跨应用的复杂工作流。
  3. 高阶编程与调试(Coding)

尤其是第二点「原生计算机使用」。 

让 AI 不再仅仅只是一个【吐字工具】,而是长出手脚,能够控制电脑,可以说是这段时间的 AI 热点。

 Claude Code、OpenClaw、Codex 之所以热度这么高,也是这个原因。

今天,通过 ChatGPT 的更新,我们也来看看。

目前 AI 控制电脑的两种主流方式(技术路线),以及他们的优缺点。 

看看,AI 真正替代人类操控电脑,到底还有多远


通过 CLI(Command Line Interface),命令行界面控制电脑。 

也就是 AI 通过【终端】输入指令来控制电脑。

(PS:就是图片上的这个东西,每个电脑都自带的)


讯享网

你可能见过,程序员在一个黑色窗口里敲代码,文件就自动创建了、程序就跑起来了。 

CLI 路线就是让 AI 来做这件事。 

Claude Code、Gemini CLI,现在几乎每家大模型公司都推出了自己的命令行 AI 工具,都成为基础标配了。

核心优势:快、准、可批量。

指令直达系统底层,没有中间环节。 

比如「批量重命名一千个文件、自动化处理数据、部署一套代码」

这些标准化的重复劳动,AI 通过命令行做起来比人快几个数量级。 

而且命令可以写成脚本,形成可复用的自动化工作流。

但它有一个绕不开的短板:对图形界面软件力不从心。

有些软件天生就是为视觉操作设计的——Photoshop、剪映、达芬奇。 

当然,AI 还是可以通过写 Python 脚本从后台去调它们的部分功能,但这跟「像人一样操作它们」完全是两回事。 

这类软件的核心操作——拖拽时间线、调整图层、调整色彩曲线——本质上都是视觉驱动的,命令行在这里要么够不到,要么够到了效果也不好。

其次,还有权限问题。 

操作系统有沙盒机制、系统保护、应用签名等层层限制,终端并不能触达所有地方


这就是 GPT-5.4 这次主打的「原生计算机使用」能力。

它的思路完全不同:不是让 AI 写代码来控制电脑,而是让 AI 直接「看屏幕、动鼠标」

具体来说,AI 截一张屏幕的图,用视觉模型识别界面上的元素。 

比如「按钮在哪、输入框在哪、菜单长什么样」,然后模拟鼠标点击、键盘输入、滚动页面来完成操作。

再截一张图看看结果对不对,继续下一步。

目前的局限性:能力还在爬坡。

每一步都要截图、识别、决策、操作,速度远不如一条命令。 

而且视觉识别还会出错——比如滚动和缩放这类连续变化的操作,AI 容易「看晕」。

但进步速度非常快。

GPT-5.4 在电脑操作的基准测试(OSWorld)上成功率达到了 75.0%,已经超过了人类测试者的 72.4%。 

要知道之前的模型在同一测试上还不到 40%。这说明多模态能力正在快速逼近甚至突破临界点。

最关键的一点:权限问题大大降低。

这是截图识别路线的一个核心优势。 通过 CLI 或 API 去操控软件,经常会碰到权限不够的问题。 

但截图识别完全是在物理层面模拟人类的行为——你能点的它都能点,你能看的它都能看。 

尤其是在电脑端和网页端,不像 APP 端会有一些截图识别的限制,它的实际操作空间非常大

这也是为什么目前很多 AI 浏览器,比如 Fellou、OpenAI 的 Atlas、Perplexity 的 Comet等,都在走这条路线。 

你的各种账号——小红书、抖音、微信——本来就已经登录在浏览器里了,AI 直接在你已登录的会话里操作,不需要走 API。 

而且因为它在模拟真人的浏览行为,平台也很难把它识别为机器人并封禁。

随着多模态能力继续提升,这条路线能操控的软件种类会越来越丰富。 

尤其是对 Photoshop、剪映、达芬奇这类视觉为主的工具,截图识别路线可能反而比 CLI 更合适。


目前这两条路线各有优劣:

CLI 快、准、可编排,但碰到图形界面软件就吃力,还受权限限制。 

截图识别通用性强、权限问题少,但速度和准确率还在追赶中。

现在很多人说AI 已经能完成人类在电脑上完成的所有任务——说实话,这个说法目前还是有点夸大的。

但两条路线都在飞速进步。

尤其是截图识别这条线,从不到 40% 的成功率跳到超越人类水平,只用了不到两年时间。

当两条路线都足够成熟,它们完全可以协同工作。 

CLI 负责后台的数据处理和逻辑编排,截图识别负责前台的界面操作和视觉判断。 

一个复杂任务里,不同环节调用不同的能力。

到那一天。

电脑端 90% 的工作被 AI 接管——恐怕真就不是一句空话了……

小讯
上一篇 2026-03-09 07:01
下一篇 2026-03-09 07:04

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/208682.html