2026年Open-AutoGLM实测:AI如何自动完成美团搜索火锅店任务

Open-AutoGLM实测:AI如何自动完成美团搜索火锅店任务最近 智谱 AI 开源的 AutoGLM Phone 框架在开发者圈子里引起了不小的讨论 它号称能让 AI 像真人一样操作手机 完成从 打开美团 到 搜索火锅店 这样一连串的任务 听起来很酷 但实际效果到底怎么样 会不会很复杂 今天 我就带大家亲手实测一下 看看这个 AI 手机助理到底有多 智能

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



最近,智谱AI开源的AutoGLM-Phone框架在开发者圈子里引起了不小的讨论。它号称能让AI像真人一样操作手机,完成从“打开美团”到“搜索火锅店”这样一连串的任务。听起来很酷,但实际效果到底怎么样?会不会很复杂?今天,我就带大家亲手实测一下,看看这个AI手机助理到底有多“智能”。

简单来说,Open-AutoGLM-Phone是一个能“看懂”手机屏幕并“动手”操作的AI框架。它和我们熟悉的ChatGPT这类纯聊天机器人完全不同。

你可以把它想象成一个坐在你手机里的“虚拟手指”和“虚拟眼睛”:

  • 虚拟眼睛(看懂屏幕):它能通过截图,理解屏幕上显示的是什么(比如这是美团首页,那个是搜索框)。
  • 虚拟手指(执行操作):它能通过ADB(安卓调试桥)发送指令,模拟点击、滑动、输入文字等操作。
  • 大脑(规划任务):你只需要用大白话说“帮我用美团搜一下附近的火锅店”,它就能自己拆解任务:先解锁手机→找到美团图标→点击打开→找到搜索框→输入“火锅店”→点击搜索→浏览结果。

它的核心价值在于,把复杂的多步骤操作,简化成一句自然语言指令。这对于自动化测试、无障碍辅助或者单纯想“偷懒”的用户来说,潜力巨大。

要让AI控制你的手机,需要搭建一个“桥梁”。这个桥梁一端连着云端或本地的AI模型(大脑),另一端连着你的安卓手机(身体)。我们分两步走:准备手机端,再准备控制端。

2.1 第一步:让你的手机“准备好被控制”

首先,你需要一部安卓手机(系统7.0以上)或者一个安卓模拟器。这里我为了演示方便,使用了Android Studio自带的模拟器。

关键操作有三步,缺一不可:

  1. 开启“开发者模式”
    • 在手机的“设置”里,找到“关于手机”或“系统信息”。
    • 连续点击“版本号”7-10次,直到出现“您已处于开发者模式”的提示。
  2. 开启“USB调试”
    • 返回设置,现在你应该能看到新出现的“开发者选项”。
    • 进入后,找到并开启“USB调试”。这个选项允许电脑通过ADB向手机发送指令。
  3. 安装并启用“ADB键盘”
    • 这是关键一步!AI需要通过这个特殊的输入法来向App里输入文字。
    • 下载 ADBKeyboard.apk 并安装到手机。
    • 在“设置”->“系统”->“语言与输入法”->“虚拟键盘”中,将“默认键盘”切换为 “ADB Keyboard”

验证连接: 用USB线连接手机和电脑,打开电脑的命令行(CMD或终端),输入:

adb devices 

如果看到一串设备ID后面跟着 device 字样,恭喜你,第一步成功了!

2.2 第二步:在电脑上部署控制中心(Open-AutoGLM)

现在,我们来配置指挥AI的“控制中心”。确保你的电脑已安装Python(3.10或以上版本)。

打开命令行,依次执行以下命令:

# 1. 下载智谱官方的开源代码 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装项目所需的所有Python工具包 pip install -r requirements.txt # 3. 以“可编辑”模式安装,方便后续自己修改代码 pip install -e . 

这几行命令会帮你把AI控制程序“请”到电脑上。安装过程可能会花几分钟,取决于你的网速。

环境准备好了,激动人心的时刻到了:给AI下命令!这里有两种主流的模型调用方式,我推荐第一种,对新手更友好。

3.1 方案一:使用智谱官方API(最简单,推荐新手)

这种方式无需自己部署复杂的AI模型,直接使用智谱AI提供的云端服务。

  1. 获取通行证(API Key)
    • 访问智谱AI开放平台官网,注册并登录。
    • 在控制台页面,创建一个新的API Key,并妥善保存。
  2. 下达指令: 在刚才的 Open-AutoGLM 项目目录下,打开命令行,输入以下命令(请替换你的真实API Key):
    python main.py –base-url https://open.bigmodel.cn/api/paas/v4 –model “autoglm-phone” –apikey “你的-API-Key-粘贴在这里” “打开美团,搜索附近的火锅店,并按评分排序” 

发生了什么? 当你按下回车,神奇的事情开始了:

  1. AI首先会“看到”你的手机锁屏界面,然后执行“向上滑动解锁”操作。
  2. 解锁后,它开始“环顾”桌面,寻找“美团”的图标。找到后,点击打开。
  3. 进入美团后,它会识别出顶部的搜索框,点击,然后通过ADB键盘输入“火锅店”。
  4. 搜索完成后,它可能会尝试寻找“排序”筛选按钮,并点击“评分最高”。
  5. 任务完成!你的手机上已经展示出了评分最高的火锅店列表。

整个过程完全自动,你只需要泡杯茶看着就行。

3.2 方案二:本地部署模型(更自由,适合进阶)

如果你担心数据隐私,或者想深入研究,可以选择在本地或自己的云服务器上部署模型。这需要一台性能不错的、带GPU的Linux服务器。

核心步骤是使用 vLLM 这类工具来启动模型服务:

# 在服务器上启动AI模型服务 python -m vllm.entrypoints.openai.api_server

--model ZhipuAI/autoglm-phone-9b --served-model-name autoglm-phone-9b --max-model-len 8192 --gpu-memory-utilization 0.9 

然后在你的电脑上,将命令中的 –base-url 指向你自己的服务器地址:

python main.py –device-id 你的设备ID –base-url http://你的服务器IP:8000/v1 –model “autoglm-phone-9b” “打开美团搜索火锅店” 

我让AI执行了“美团搜火锅店”这个任务,并观察了整个过程。以下是真实的体验报告:

令人惊喜的亮点:

  • 理解能力不错:它能准确识别美团App的图标、搜索框、按钮等常见UI元素。
  • 规划逻辑清晰:任务拆解步骤符合人类直觉:解锁→找App→打开→搜索。
  • 自动化程度高:从开始到出结果,中间无需任何人工干预。

遇到的实际挑战与解决思路:

在测试中,我也遇到了一些“翻车”瞬间,这恰恰是深入理解它的好机会:

  1. 找不到App怎么办? 如果手机桌面上没有美团,AI会陷入“疯狂找图标”的循环。解决方案:可以在代码中为 PhoneAgent 类增加一个简单的超时或失败计数逻辑,超过一定次数后自动停止,避免浪费资源。
    # 示例:在agent.py的run方法中增加保护逻辑 max_fail_attempts = 5 fail_count = 0 while not task_finished and fail_count < max_fail_attempts:

# ... AI执行步骤 ... if action_failed: fail_count += 1 

  • 卡在登录页面怎么办? 如果美团需要登录,AI目前可能会卡住。框架设计了人工接管机制,此时它会暂停并提示用户手动操作,完成后AI再继续。
  • 操作不够精准怎么办? 有时点击的位置会略有偏差。这可以通过优化屏幕截图的分辨率微调模型的视觉理解能力来改善。
  • 它最适合做什么?

    • 自动化重复任务:每天打开某个App签到、批量执行某些固定操作。
    • 无障碍辅助:为视障或行动不便的用户提供语音控制手机的能力。
    • 应用测试:自动遍历测试App的各个功能点。

    实测完Open-AutoGLM-Phone,我的感受是复杂的。它绝不是一个完美的产品,在复杂场景、非常规UI面前还会犯错。但它的方向和展示的可能性,令人无比兴奋

    我们正在从“告诉AI是什么”(ChatGPT)的时代,走向“让AI去做什么”(Agent)的时代。这个框架就像给大模型装上了“眼睛”和“手”,虽然现在这套“感官”和“肢体”还略显笨拙,但第一步已经迈出。

    对于开发者而言,这是一个绝佳的学习和实验平台。你可以看到多模态理解、任务规划、工具调用这些前沿技术如何在一个具体项目中落地。对于普通用户,它则预告了一个未来:或许不久后,我们真的可以用一句话,就让AI帮我们处理好手机上所有繁琐的操作。


    获取更多AI镜像

    想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

    小讯
    上一篇 2026-04-20 19:52
    下一篇 2026-04-20 19:50

    相关推荐

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
    如需转载请保留出处:https://51itzy.com/kjqy/265339.html