GitHub 地址:https://github.com/agents-io/PokeClaw
PokeClaw(原名 PocketClaw)是一个开源的 Android 自动化应用,它的目标不是让你“聊”AI,而是让 AI 真正“操控”你的手机。它基于 Gemma 4 模型,主打本地优先(Local-First) 的隐私保护理念,能将你的手机变成一台能自主执行任务的智能设备。
与依赖云端 API 的自动化工具不同,PokeClaw 的核心推理完全在设备端运行。它让 AI 具备了“看屏决策”的能力——读取屏幕内容,自主选择工具(点击、滑动、输入),并完成跨应用的复杂流程。对于追求数据隐私、需要离线自动化或想体验真正“手机智能体”的用户来说,这是目前极少数能跑通全流程的开源方案。
1. 本地优先的 AI 决策引擎
- On-Device 模型:内置 Gemma 4 模型,所有推理均在手机端完成,无需联网,不消耗 API 费用,数据绝对私有。
- 屏幕理解(OCR + UI):AI 能读取当前屏幕的文本内容和 UI 结构,基于上下文决定下一步操作,而非死板的坐标点击。
- 工具调用(Tool Calling):模型自主调用底层工具,如
tap(点击)、swipe(滑动)、type(输入)、open_app(打开应用)等,实现真正的自主交互。
2. 可复用的“技能”(Skills)系统
- 预制技能:项目内置了经过验证的自动化流程(Skills),如“WhatsApp 上下文自动回复”、“相册整理”等。
- 技能即流程:技能本质是由通用工具组合成的“配方”(Recipe)。例如“自动回复”技能 =
open_app→read_screen→generate_reply→send_message。 - 未来可扩展:开发者可编写文本格式的技能文件,教会 AI 新的复杂流程,无需修改 App 源码。
3. 混合模式与灵活架构
- 云端辅助(可选):对于复杂任务,可切换至 Cloud 模式(支持 OpenAI/Anthropic 等),利用更强的大模型提升成功率,本地模式仍是默认首选。
- 移动智能体底座:作者将其定位为“移动智能体框架”(Mobile Agent Harness),而非简单的自动化脚本工具,旨在构建通用的手机 AI 控制层。
硬件与前置要求
- Android 设备:推荐 Pixel 8 Pro 或同等性能的旗舰机型。
- 内存要求:8GB RAM 为入门门槛,12GB+ 为流畅体验甜点区。Gemma 4 模型加载较吃内存。
- 系统权限:需开启无障碍服务(Accessibility Service) 和悬浮窗权限,这是 AI 操控屏幕的基础。
安装步骤
- 获取 APK:从 GitHub Releases 页面下载最新版
PokeClaw.apk。 - 安装与覆盖:若手机已存在旧版调试包,必须先卸载旧版,再安装新版(0.6.x 起为稳定签名版,不兼容旧数据)。
- 权限配置:
- 安装后打开 App,跟随引导开启“PokeClaw”的无障碍服务。
- 授予必要的悬浮窗和通知读取权限。
- 模型与模式:
- 本地模式:无需任何配置,默认使用内置 Gemma 4,即装即用。
- 云端模式:在设置中填入 OpenAI API Key 等(仅当需要更强推理时使用)。
基础交互:对话与任务
- 启动服务:确保 PokeClaw 无障碍服务处于
ON状态。 - 下达指令:在聊天框输入自然语言指令,如“帮我给妈妈发一条 WhatsApp,说我今晚回家吃饭”。
- 观察执行:AI 会自行打开 WhatsApp,定位到指定联系人,输入文本并发送。整个过程无需你手动点击。
高级使用:技能与自动化
- 启用技能:在设置中开启如
whatsapp_auto_reply(WhatsApp 自动回复)技能。 - 配置触发条件:设置监听的联系人(如“妈妈”)。
- 全自动运行:当收到新消息时,AI 会自动读取聊天记录,生成上下文相关的回复并发送,全程无需人工干预。
性能与预期管理
- 速度感知:本地模式在 CPU 上较慢(复杂任务需 3-5 分钟),在带 NPU 的旗舰机上仅需数秒。这是本地隐私与速度的权衡。
- 任务边界:目前模型擅长基于屏幕信息的决策流(如“找到设置里的 Wi-Fi 并关闭”),对于极度复杂的多步逻辑,建议使用云端模式或拆解任务。
场景一:隐私安全的“智能秘书”(本地模式)
痛点:你希望手机能自动处理日常通知(如回复家人消息),但担心聊天记录上传至云端泄露隐私。
PokeClaw 方案:
- 在手机端部署 PokeClaw,开启本地模式。
- 设置“消息自动回复”技能,绑定至“家庭群”和“伴侣”。
- 当你在会议中时,AI 自动读取微信/WhatsApp 消息,判断是否为紧急或需回复内容,并代你发送“正在开会,稍后回复”。
- 价值:实现了 7×24 小时的智能响应,且所有对话数据从未离开你的手机。
场景二:无障碍辅助与老年关怀
痛点:长辈不熟悉智能手机操作,经常找不到功能或误触。
PokeClaw 方案:
- 在长辈手机安装 PokeClaw,配置语音唤醒或简化界面。
- 通过远程指导或预设指令,让 AI 协助操作。例如:“打开微信,找到儿子的头像,发起视频通话”或“把手机音量调到最大”。
- AI 通过屏幕阅读逐步执行,解决了“不会用”的痛点。
- 价值:将复杂的 GUI 操作转化为简单的语音指令,降低数字鸿沟。
场景三:开发者的“自动化测试助手”
痛点:App 开发者需要在不同机型上重复进行 UI 回归测试,人工操作耗时且易漏。
PokeClaw 方案:
- 在测试机上部署 PokeClaw,切换至 Cloud 模式以获得更稳定的逻辑推理。
- 编写技能文件,描述测试路径:“打开 App → 点击登录 → 输入测试账号 → 验证首页元素”。
- 让 AI 自动遍历核心流程,并记录屏幕异常。
- 价值:将 UI 测试从“手动点按”升级为“语义化验证”,大幅提升回归效率。
PokeClaw 是开源移动 AI 智能体领域的一次重要实践。它证明了在终端设备上运行具备“工具使用能力”的模型是可行的。对于普通用户,它是实现隐私安全自动化的利器;对于开发者,它是研究On-Device AI Agent的绝佳样板。
⚠️ 注意事项:该项目仍处于快速迭代期,部分复杂任务成功率依赖模型性能。请务必在授权范围内使用自动化功能,遵守平台规则。
GitHub 地址:https://github.com/agents-io/PokeClaw
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/269823.html