2026年从 ChatGPT 5.4 的更新，看 AI 控制电脑的两种方式

大家好，我是讯享网，很高兴认识大家。

昨天（2026年 3 月 5 日），OpenAI 发布了 GPT-5.4 。

这次更新有一个标志性的节点：上下文窗口拉到了 100 万 token。 

至此，OpenAI、Claude、Gemini ，模型界的御三家，全部进入百万上下文时代。 

也就是说，AI 一次能「看到」和「记住」的信息量，已经大大提升，不存在连一本书都读不完的尴尬境地了。

除上下文提升外， ChatGPT 5.4 这次有三大核心能力的提升：

深度知识工作（Knowledge Work）
原生计算机使用（Computer Use）： AI 可以直接操控电脑，执行跨应用的复杂工作流。
高阶编程与调试（Coding）

尤其是第二点「原生计算机使用」。 

让 AI 不再仅仅只是一个【吐字工具】，而是长出手脚，能够控制电脑，可以说是这段时间的 AI 热点。

 Claude Code、OpenClaw、Codex 之所以热度这么高，也是这个原因。

今天，通过 ChatGPT 的更新，我们也来看看。

目前 AI 控制电脑的两种主流方式（技术路线），以及他们的优缺点。 

看看，AI 真正替代人类操控电脑，到底还有多远。

通过 CLI（Command Line Interface），命令行界面控制电脑。 

也就是 AI 通过【终端】输入指令来控制电脑。

（PS：就是图片上的这个东西，每个电脑都自带的）

讯享网

你可能见过，程序员在一个黑色窗口里敲代码，文件就自动创建了、程序就跑起来了。 

CLI 路线就是让 AI 来做这件事。 

Claude Code、Gemini CLI，现在几乎每家大模型公司都推出了自己的命令行 AI 工具，都成为基础标配了。

核心优势：快、准、可批量。

指令直达系统底层，没有中间环节。 

比如「批量重命名一千个文件、自动化处理数据、部署一套代码」。

这些标准化的重复劳动，AI 通过命令行做起来比人快几个数量级。 

而且命令可以写成脚本，形成可复用的自动化工作流。

但它有一个绕不开的短板：对图形界面软件力不从心。

有些软件天生就是为视觉操作设计的——Photoshop、剪映、达芬奇。 

当然，AI 还是可以通过写 Python 脚本从后台去调它们的部分功能，但这跟「像人一样操作它们」完全是两回事。 

这类软件的核心操作——拖拽时间线、调整图层、调整色彩曲线——本质上都是视觉驱动的，命令行在这里要么够不到，要么够到了效果也不好。

其次，还有权限问题。 

操作系统有沙盒机制、系统保护、应用签名等层层限制，终端并不能触达所有地方。

这就是 GPT-5.4 这次主打的「原生计算机使用」能力。

它的思路完全不同：不是让 AI 写代码来控制电脑，而是让 AI 直接「看屏幕、动鼠标」。

具体来说，AI 截一张屏幕的图，用视觉模型识别界面上的元素。 

比如「按钮在哪、输入框在哪、菜单长什么样」，然后模拟鼠标点击、键盘输入、滚动页面来完成操作。

再截一张图看看结果对不对，继续下一步。

目前的局限性：能力还在爬坡。

每一步都要截图、识别、决策、操作，速度远不如一条命令。 

而且视觉识别还会出错——比如滚动和缩放这类连续变化的操作，AI 容易「看晕」。

但进步速度非常快。

GPT-5.4 在电脑操作的基准测试（OSWorld）上成功率达到了 75.0%，已经超过了人类测试者的 72.4%。 

要知道之前的模型在同一测试上还不到 40%。这说明多模态能力正在快速逼近甚至突破临界点。

最关键的一点：权限问题大大降低。

这是截图识别路线的一个核心优势。通过 CLI 或 API 去操控软件，经常会碰到权限不够的问题。 

但截图识别完全是在物理层面模拟人类的行为——你能点的它都能点，你能看的它都能看。 

尤其是在电脑端和网页端，不像 APP 端会有一些截图识别的限制，它的实际操作空间非常大。

这也是为什么目前很多 AI 浏览器，比如 Fellou、OpenAI 的 Atlas、Perplexity 的 Comet等，都在走这条路线。 

你的各种账号——小红书、抖音、微信——本来就已经登录在浏览器里了，AI 直接在你已登录的会话里操作，不需要走 API。 

而且因为它在模拟真人的浏览行为，平台也很难把它识别为机器人并封禁。

随着多模态能力继续提升，这条路线能操控的软件种类会越来越丰富。 

尤其是对 Photoshop、剪映、达芬奇这类视觉为主的工具，截图识别路线可能反而比 CLI 更合适。

目前这两条路线各有优劣：

CLI 快、准、可编排，但碰到图形界面软件就吃力，还受权限限制。 

截图识别通用性强、权限问题少，但速度和准确率还在追赶中。

现在很多人说「AI 已经能完成人类在电脑上完成的所有任务」——说实话，这个说法目前还是有点夸大的。

但两条路线都在飞速进步。

尤其是截图识别这条线，从不到 40% 的成功率跳到超越人类水平，只用了不到两年时间。

当两条路线都足够成熟，它们完全可以协同工作。 

CLI 负责后台的数据处理和逻辑编排，截图识别负责前台的界面操作和视觉判断。 

一个复杂任务里，不同环节调用不同的能力。

到那一天。

电脑端 90% 的工作被 AI 接管——恐怕真就不是一句空话了……

2026年从 ChatGPT 5.4 的更新，看 AI 控制电脑的两种方式

相关推荐