目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。
别急着把鼠标扔掉,先听我说两句
前两天刷朋友圈,看到有人发了张截图,配文"以后不用上班了,AI自己会把活干完"。我点开一看,是GPT-5.4在Excel里自动填数据,还顺手打开了Chrome查资料,最后把结果写进了Word。底下评论区一片哀嚎:“完了,要被开除了。”
我看得直乐。作为在AI坑里摸爬滚打这么多年的老油条,我得给大家泼盆冷水:现在的AI确实能操控电脑了,但它还不是你想象中的那个贾维斯。 它更像是一个刚入职的实习生——眼神挺好使(能看懂屏幕截图),手脚也利索(能点鼠标敲键盘),但你得手把手教它每一步干啥,而且它还偶尔会犯迷糊,比如在弹窗面前愣住,或者把"取消"当成"确定"给点了。
不过话说回来,GPT-5.4这个"原生电脑操控"(Native Computer Use)功能,确实是2026年开年以来最让程序员群体兴奋的东西之一。以前我们想自动化个办公流程,得学RPA工具,得写Python脚本调用PyAutoGUI,还得应付各种乱七八糟的坐标计算。现在好了,直接给API发句话:“帮我把桌面上的PDF都打开,提取里面的发票金额,汇总到Excel里”,它自己就开始动了。
这篇文章,我就带大家从零开始,把GPT-5.4这个"电脑遥控"功能给玩起来。不需要你是Python大神,也不需要懂什么计算机视觉,跟着步骤走,半小时后你就能看着AI在你的屏幕上自动点点点了。
很多人一听"AI操控电脑",脑子里浮现的是黑客帝国里那种代码雨哗哗往下掉、AI在后台完全接管系统的画面。实际上GPT-5.4的工作方式朴素得让人想笑——它就是不停地截屏、看图、猜你在哪儿、然后动动鼠标。
具体来说,流程是这样的:
- 截屏:API调用时,系统给AI发一张当前屏幕的高清截图(或者你指定区域的图)。
- 理解:GPT-5.4用它的视觉能力看这张图,识别出"这儿有个按钮"、“那儿有个输入框”、“当前在Chrome浏览器里”。
- 决策:根据你给的指令,它决定下一步该点哪儿、输入啥、或者滚轮往下滚多少。
- 执行:API返回一个动作指令,比如
click(x=1200, y=350)或者type("2026-03-17"),你的代码负责真的去执行这个操作。 - 循环:操作完了再截一张图,看看效果对不对,继续下一步。
说白了,GPT-5.4就是个"看图说话的机械臂"。它不需要软件提供API接口,只要有图形界面、能截图,它就能操作。这意味着啥? 意味着那些老旧的ERP系统、没有开放接口的政府网站、甚至是你自己用VB6写的上古内部工具,只要是人眼能看、鼠标能点的,AI现在理论上都能帮你自动化。
不过别高兴太早。这种模式有几个硬伤,得提前心里有数:
- 慢是真的慢。因为每操作一步都要截屏、上传、推理、返回,一个"打开软件-复制粘贴-关闭"的简单流程,人手动可能就3秒,AI可能需要30秒甚至一分钟。你要是拿来抢演唱会门票,票早没了AI还在那加载页面呢。
- 贵也是真的贵。每次截屏都算token,一张高清图可能就好几千token进去了。让它帮你处理100张表格,账单可能够你吃顿火锅了。
- 验证码难题。对,AI看见验证码也懵,它不会帮你点"我不是机器人"的 checkbox,遇到复杂的图形验证码直接死机。所以那些指望AI全自动黑进系统的省省吧,它连12306的验证码都过不去。
在开始写代码之前,我必须得强调一件事:千万别直接在主力工作机上跑这玩意儿! GPT-5.4操控电脑的时候是真的会动你的鼠标键盘,万一它抽风,把你正在写的代码给删了,或者给老板发了一堆乱码邮件,别怪我没提醒你。
最安全的玩法有两种:
方案A:虚拟机里玩。 装个VMware或者VirtualBox,在里面装个干净的Windows系统,把要自动化的软件装好,然后在虚拟机里跑AI。这样即使AI把系统搞崩了,也就是重启个虚拟机的事。
方案B:搞个闲置的二奶机。 家里那台吃灰的老笔记本可以拿出来擦擦灰了,接个远程桌面,让AI在那上面折腾。
环境准备好了,我们来搞代码。这里我用Python举例,因为OpenAI的官方SDK支持得最好。首先装库:
pip install openai opencv-python pyautogui mss
pyautogui是用来真的控制鼠标键盘的,mss是用来快速截屏的(比PIL快很多)。
然后是你的API配置。注意啊,GPT-5.4这个computer use功能,目前(2026年3月)只能通过API调用,而且你得有权限访问最新的模型版本。代码里记得把模型名写对:
GPT plus 代充 只需 145import openai import pyautogui import base64 from mss import mss import io client = openai.OpenAI(api_key="你的API_KEY")
安全提示:先把鼠标移到你设定的安全区域,方便随时抢回控制权
比如设置个"紧急停止区":如果鼠标移到屏幕左上角,就终止程序
def safety_check(): x, y = pyautogui.position() if x < 50 and y < 50: print("检测到紧急停止信号,程序退出") exit()
先从最简单的开始。假设你的桌面乱成一锅粥,有几十张PDF发票,你想让AI帮你打开每一张,找到里面的金额,最后汇总到一个txt文件里。
传统做法:写个Python脚本用pdfplumber挨个解析。但如果这些PDF是图片扫描件呢?你得先搞OCR,格式还不统一,有的发票表格是歪的……头疼。
GPT-5.4做法:直接"看"着办。
GPT plus 代充 只需 145def take_screenshot(): """截取整个屏幕""" with mss() as sct: screenshot = sct.shot(mon=-1, output=None) return base64.b64encode(screenshot).decode('utf-8') def execute_action(action): """根据AI返回的指令真的去动鼠标键盘""" if action['type'] == 'click': x, y = action['x'], action['y'] pyautogui.click(x, y) print(f"点击坐标: ({x}, {y})") elif action['type'] == 'type': text = action['text'] pyautogui.typewrite(text, interval=0.05) print(f"输入文字: {text}") elif action['type'] == 'scroll': pyautogui.scroll(action['amount']) print(f"滚动: {action['amount']}")
def process_invoice(filename): """主流程:处理单个发票""" # 先打开文件 os.startfile(f"桌面/发票/{filename}") time.sleep(3) # 等PDF加载 # 截图给AI看 screenshot_base64 = take_screenshot() messages = [ { "role": "system", "content": "你是一个自动化助手。当前屏幕是打开的发票PDF。请识别发票金额,并点击右上角的关闭按钮关闭PDF。返回JSON格式:{'amount': '识别的金额', 'action': {'type': 'click', 'x': 坐标, 'y': 坐标}}" }, { "role": "user", "content": [ {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": screenshot_base64}} ] } ] # 调用GPT-5.4 response = client.chat.completions.create( model="gpt-5.4", # 注意模型名 messages=messages, max_tokens=1024 ) # 解析AI的返回并执行 try: result = json.loads(response.choices[0].message.content) print(f"识别到金额: {result['amount']}") execute_action(result['action']) # 执行关闭PDF操作 return result['amount'] except: print("AI返回格式不对,可能需要重试") return None
批量处理:
GPT plus 代充 只需 145# 批量处理 invoices = os.listdir("桌面/发票/") results = [] for inv in invoices: if inv.endswith('.pdf'): amount = process_invoice(inv) if amount: results.append(f"{inv}: {amount}") time.sleep(2) # 稍微喘口气,别让AI太累 # 保存结果 with open("汇总.txt", "w") as f: f.write(" ".join(results))
看明白了吗?我们根本没告诉AI发票长啥样,也没教它"金额"一般在哪个位置。 它就是靠看图识别出来的。这就是"原生电脑操控"的威力——它理解的是视觉语义,不是DOM结构或者API接口。
这个场景更实用:你从系统A导出了一份CSV,需要把它粘贴到系统B的网页表单里,但两个系统之间没有API对接,而且B系统的网页那个表格做得特别反人类,一列一列的,还得先点"新增"才能输入。
这种活儿以前得专门雇个实习生干一天,或者写个复杂的Selenium脚本(还得应付各种动态加载)。现在用GPT-5.4,你可以像个指挥官一样坐在旁边喝咖啡:
def cross_system_data_transfer(): """ 自动化流程:从Excel复制数据到网页表单 """ steps = [ "点击打开桌面的data.xlsx文件", "选中A1到D10的区域并复制", "打开Chrome浏览器,访问http://internal-system.company.com/input", "在网页上找到'批量录入'按钮并点击", "等待弹窗出现后,把刚才复制的数据粘贴进去", "点击提交" ] for step in steps: print(f"当前步骤: {step}") # 每步都截个图看看现状 screenshot = take_screenshot() response = client.chat.completions.create( model="gpt-5.4", messages=[ { "role": "system", "content": f"你正在执行自动化任务。当前步骤:{step}。请分析当前屏幕截图,返回下一步的具体鼠标或键盘操作。格式:{{'action': 'click/type/scroll/wait', 'details': {{...}}}}。如果当前状态不对(比如需要的窗口没打开),请返回修复操作。" }, { "role": "user", "content": [{"type": "image", "source": {"type": "base64", "data": screenshot}}] } ] ) action = parse_ai_response(response.choices[0].message.content) execute_action(action) # 每步等一等,别太快了 time.sleep(3) # 安全检查 safety_check() # 跑起来 cross_system_data_transfer()
这段代码看起来简单,但实际跑的时候你会发现一些有趣的细节。比如AI真的知道"选中A1到D10"是什么意思——它看见Excel那个绿色的选中状态就知道成功了,没看见就会尝试重新拖拽。它也知道什么叫"弹窗出现",看见灰色遮罩层和居中的白色对话框,就知道可以执行下一步了。
当然,现实很骨感。如果那个内部系统的网页突然改版了,按钮从蓝色变成绿色了,位置挪了,AI大概率能自己调整——但如果是整个交互逻辑变了(比如从弹窗变成页面跳转),AI就会懵。这时候你就得像个教练一样,修改提示词,重新教它。
不是所有软件都那么听话。有些老旧的Win32程序,窗口渲染方式很奇葩,或者有些网页用了Canvas画图而不是HTML元素,这时候AI可能会"看不清"。
还有一种情况:动态加载。AI点了一个按钮,系统开始转圈圈加载,AI这时候要是急着截下一张图,截到的可能是"加载中"的界面,然后就以为任务完成了,开始执行下一步,结果点错了地方。
这时候你需要在代码里加点"暂停"逻辑,但AI自己也得学会等:
GPT plus 代充 只需 145def smart_wait_for_load(): """ 智能等待:让AI判断页面是否加载完成 """ max_retries = 5 for i in range(max_retries): screenshot = take_screenshot() response = client.chat.completions.create( model="gpt-5.4", messages=[ { "role": "system", "content": "观察当前屏幕。如果看到加载动画、转圈圈、'请稍候'等字样,返回'waiting';如果看到目标内容已显示,返回'ready';如果看到错误弹窗,返回'error'。" }, { "role": "user", "content": [{"type": "image", "source": {"type": "base64", "data": screenshot}}] } ] ) status = response.choices[0].message.content.strip() if status == "ready": return True elif status == "error": print("出错了,需要人工介入") return False else: print(f"还在加载... 第{i+1}次检查") time.sleep(2) return False # 在主流程里调用 if smart_wait_for_load(): # 继续下一步 pass
这个小技巧能让AI像个有耐心的人一样,盯着屏幕看加载进度,而不是瞎点一气。
玩了几天GPT-5.4的电脑操控,我总结了一份”避坑指南”,大家收好:
- 分辨率玄学。 AI训练时用的截图分辨率可能跟你现在的不一样。如果你把屏幕缩放从100%调到125%,或者从高分辨率笔记本外接到低分辨率显示器,AI的坐标可能会偏移。建议固定一个分辨率跑自动化。
- 夜间模式/主题色。 你白天用浅色模式,晚上切深色模式,AI可能就认不出那个”黑底白字的按钮”就是上午它点的”白底黑字按钮”。保持一致的主题。
- 弹窗地狱。 Windows那种”你要允许此应用对你的设备进行更改吗?”的UAC弹窗,或者杀毒软件的拦截提示,AI是点不了的(它需要系统级权限)。最好把这些都关了,或者在虚拟机里跑。
- 钱烧得慌。 真的,我第一天玩high了,让AI帮我整理了200多张图片,第二天看账单差点心梗。建议先用便宜的模型(比如GPT-4o)调试流程,确认每一步的提示词都稳定了,再上GPT-5.4跑正式任务。
- 人类在环(Human-in-the-loop)。 重要操作(比如转账、删除数据、发送邮件)前,最好加个确认步骤。可以让AI执行到关键节点时弹个窗问你:“老铁,我接下来要给你老板发这封邮件,确定吗?” 你点了确定,它再继续。
聊了半天,回到那个终极问题:有了GPT-5.4的电脑操控,程序员是不是要失业了?行政小妹是不是要转岗了?
我的看法是:它替代的不是人,而是那些”把人当机器人用”的重复劳动。
以前公司为了自动化一个流程,要么买死贵的RPA软件,要么招个实习生天天复制粘贴。现在GPT-5.4相当于给每个普通员工配了个”数字实习生”。这个实习生不会累,不会抱怨工作枯燥,但它也没有判断力,遇到异常情况需要找人类大哥请教。
对我们来说,掌握了这个工具,你就从”体力劳动者”升级成了”流程设计师”。以前你亲自搬砖头,现在你指挥AI搬砖头,而你的价值体现在设计搬运路线、处理突发状况、以及决定这堵墙到底该怎么砌。
所以啊,别慌,先把这篇文章收藏了,找个周末在虚拟机里试试。等你看着AI第一次自动帮你填完那张烦人的报销单时,你会回来给我点赞的。
目前国内还是很缺AI人才的,希望更多人能真正加入到AI行业,共同促进行业进步,增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow,教程通俗易懂,高中生都能看懂,还有各种段子风趣幽默,从深度学习基础原理到各领域实战应用都有讲解,我22年的AI积累全在里面了。注意,教程仅限真正想入门AI的朋友,否则看看零散的博文就够了。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/243194.html