强大的多模态GUI自动化智能体家族，支持移动设备和PC平台的端到端操作

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Mobile-Agent是由阿里巴巴X-PLUG团队开发的强大GUI智能体家族，是一个专为移动设备和PC平台设计的端到端多模态智能体系统。该项目旨在实现GUI自动化，通过视觉感知、推理规划和动作执行来自主操作各种应用程序。

GUI-Owl是一个基础的GUI智能体模型，在十个GUI基准测试中达到了开源端到端模型的最先进性能，涵盖桌面和移动环境的定位、问答、规划、决策制定和程序知识。GUI-Owl-7B在AndroidWorld上达到66.4分，在OSWorld上达到29.4分。

Mobile-Agent-v3是基于GUI-Owl的跨平台多智能体框架，提供规划、进度管理、反思和记忆等功能。它是一个原生的端到端多模态智能体，作为GUI自动化的基础模型设计，将感知、定位、推理、规划和动作执行统一在单一策略网络中。

Mobile-Agent-E是一个具有自我进化能力的分层多智能体框架，能够通过过往经验实现自我进化，在复杂的多应用任务上表现更强。

PC-Agent是一个多智能体协作系统，可以基于用户指令实现生产力场景的自动化控制（如Chrome、Word和微信）。专为密集和多样化交互元素设计的主动感知模块更好地适应PC平台。分层多智能体合作结构提高了更复杂任务序列的成功率。现在同时支持Windows和Mac。

Mobile-Agent-v2是通过多智能体协作实现有效导航的移动设备操作助手。多智能体架构解决了长上下文输入场景中的导航挑战。增强的视觉感知模块显著提高了操作准确性。

Mobile-Agent-v3在AndroidWorld上达到73.3分，在OSWorld上达到37.7分，为开源GUI智能体框架设立了新的最先进标准
在多个GUI自动化评测榜单中取得SOTA性能，包括ScreenSpot-V2、ScreenSpot-Pro、OSWorld-G、MMBench-GUI、Android Control、Android World和OSWorld

GPT plus 代充 只需 145

Mobile-Agent-v3 (2025): Foundamental Agents for GUI Automation
PC-Agent (ICLR 2025 Workshop): A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC
Mobile-Agent-E (2025): Self-Evolving Mobile Assistant for Complex Tasks
Mobile-Agent-v2 (NeurIPS 2024): Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
Mobile-Agent (ICLR 2024 Workshop): Autonomous Multi-Modal Mobile Device Agent with Visual Perception

Mobile-Eval是为评估移动设备智能体性能而设计的基准，包括10个主流单应用场景和1个多应用场景。每个场景设计了三种指令类型。

GPT plus 代充 只需 145

该项目代表了GUI自动化智能体的前沿发展方向，通过不断的技术创新和性能优化，为实现真正的通用人工智能助手铺平了道路。随着模型能力的提升和应用场景的扩展，Mobile-Agent有望在更多实际场景中发挥重要作用。

Star History Chart