Mobile-Agent-v3：新的 GUI Agents 开源王者

type

status

date

slug

summary

[2508.15144] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Alibaba

https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-v3，模型开源

阿里巴巴通义实验室的研究团队推出了Mobile-Agent-v3框架及其核心模型GUI-Owl。本文将深入剖析Mobile-Agent-v3背后的创新技术和方法，揭示其如何成为GUI自动化领域的革新力量。

GUI-Owl：端到端的多模态GUI智能体

Mobile-Agent-v3框架的核心是GUI-Owl，一个专为GUI自动化设计的端到端多模态智能体模型。它旨在将UI感知、元素定位（grounding）、复杂推理、任务规划以及最终的动作执行等一系列能力，统一到一个单一的策略网络中，其实就是统一的智能体模型（Agent Model）了。GUI-Owl基于Qwen2.5-VL模型进行微调，并通过海量且多样化的GUI交互数据进行后训练，使其能够无缝地与各种操作系统（包括移动端的Android、PC端的Ubuntu、macOS和Windows）上的图形用户界面进行交互。这使得GUI-Owl不仅能够自主执行多轮GUI交互任务，还能泛化到诸如问答、图像描述、任务规划和元素定位等特定应用场景。

GUI-Owl的强大之处在于其能够像人类一样，通过观察屏幕截图（当前环境观察）和回顾历史操作，来理解当前状态并决定下一步的行动（采用 Qwen 的函数调用格式）。在每个决策步骤中，模型会从预定义的动作空间中选择最合适的动作。值得一提的是，为了提升模型的适应性和处理复杂任务的能力，GUI-Owl在执行任何实际动作之前，都会先进行“推理”（Reasoning）。这种显式的推理过程，使得模型能够更好地适应动态和复杂的GUI环境。同时，为了避免对话历史过长，模型还会生成一个简洁的“结论”来概括当前步骤的关键信息，并将其存储在历史上下文中，确保了长期交互的效率。最终，GUI-Owl输出的抽象动作会被翻译成具体的设备操作命令，例如针对Android设备的ADB命令，或针对桌面环境的pyautogui代码，从而实现对GUI的精准控制。

GUI-Owl的另一个重要特性是其在多智能体框架中的灵活性。它不仅可以作为一个独立的智能体完成任务，还可以作为Mobile-Agent-v3框架中的一个专业模块，与其他智能体协同工作，共同解决更复杂、更长期的自动化工作流。这种模块化和协作能力，为构建更高级的GUI自动化系统提供了可能。

<ins/>

创新一：大规模环境基础设施与自我进化轨迹生产

传统的GUI自动化数据收集往往依赖于耗时耗力的人工标注，这极大地限制了模型训练的规模和多样性。Mobile-Agent-v3团队为了解决这一瓶颈，构建了一个大规模环境基础设施，并在此基础上提出了Self-Evolving GUI Trajectory Production（自我进化GUI轨迹生产）框架。这一创新是Mobile-Agent-v3能够实现高性能的关键之一。

该基础设施充分利用了云计算的优势，在阿里云上部署了大量的云手机和云计算机，从而能够模拟并支持Android、Ubuntu、macOS和Windows等多种主流操作系统环境。这意味着研究人员可以在一个高度可控且动态变化的虚拟环境中，进行大规模的GUI交互数据收集和模型训练，极大地提升了实验效率和数据多样性。

自我进化GUI轨迹生产pipeline是这一基础设施的核心。它通过一个精巧的自动化流程，实现了高质量交互数据的持续生成和优化，具体包括以下四个关键环节：

高质量查询生成（High-quality Query Generation）：系统能够模拟真实用户的行为模式，自动生成多样化且具有挑战性的交互查询。这些查询旨在覆盖各种复杂的GUI操作场景，例如特定应用程序内的多步骤任务、跨应用程序的协作任务，以及需要复杂逻辑判断的场景。通过精细设计的查询模板和生成策略，确保了生成数据的广度和深度。

模型试运行（Model Rollouts）：在虚拟环境中，GUI-Owl和Mobile-Agent-v3会根据生成的查询进行实际操作，产生一系列的交互轨迹。这个过程是全自动的，模型会尝试完成任务，并记录下每一步的观察（屏幕截图）和执行的动作。这些轨迹包含了模型在不同场景下的决策过程和执行结果，是后续数据处理的基础。

严格的正确性判断（Rigorous Correctness Judgment）：系统内置了强大的评估机制，能够对生成的轨迹进行严格的正确性判断。这不仅仅是简单的任务成功与否的判断，还包括对轨迹的效率、合理性以及是否符合预期行为的评估。只有高质量、符合预期的交互数据才会被纳入训练集，从而避免了低质量数据对模型性能的负面影响。这种机制有效地过滤了无效或错误的轨迹，保证了数据质量。

特定查询指导生成（Query-specific Guidance Generation）：该模块借助成功的轨迹创建引导，以提高模型性能。这一过程包含以下步骤：(1) 动作描述：VLM 依据参考轨迹，针对每个动作的结果生成描述。其输入包括动作前后的屏幕截图以及动作决策。对于基于坐标的动作，作者会突出交互点，帮助 VLM 进行分析。(2) 质量控制：针对模型生成的轨迹，VLM 会参照模型的决策依据，验证步骤的有效性，筛选掉次优动作。(3) 引导合成：将动作描述串联起来，输入到 LLM 中，由该模型总结完成查询所需的关键步骤，进而生成特定查询引导。这些指导可以帮助模型更好地理解任务，并在后续的试运行中生成更优的轨迹。例如，当模型在某个特定步骤陷入困境时，系统可以提供额外的提示或示范，引导模型走出困境，从而生成更完整的成功轨迹。

这种“自我进化”的机制形成了一个强大的正反馈循环：模型生成数据，数据反哺模型，模型能力提升后又能生成更高质量的数据。这不仅显著减少了对人工标注的依赖，还使得Mobile-Agent-v3能够持续地学习和适应新的GUI环境和任务，从而在不断变化的应用场景中保持领先地位。这种数据生成范式对于解决GUI自动化领域长期存在的数据稀缺问题具有重要意义。

创新二：多样化的基础智能体能力构建

GUI-Owl 不仅能作为原生智能体，独立与 GUI 进行交互，还提供多种基础能力，以支持下游的独立调用，或集成到多智能体框架中。为此，作者收集并构建了各类能力（如定位（grounding）、图像 caption 和 planning）的数据集。在训练过程中，这些数据集会与通用指令数据混合。作者发现，该模型不仅具备零样本 GUI 问答能力，还能针对未见任务，具备通用的指令遵循能力。

为了使GUI-Owl具备更强大的泛化能力和适应性，研究团队在数据构建方面下足了功夫，引入了多个下游数据构建pipeline，旨在全面提升智能体的基础UI能力。这些能力是GUI-Owl能够理解复杂GUI环境并执行精细操作的基石。

UI元素定位（Grounding）pipeline：

目标：使GUI-Owl能够精确识别和定位屏幕上的任何UI元素，无论是基于其功能（如“提交按钮”）、外观（如“蓝色方框”）还是布局（如“左上角的图标”）。

实现细节：通过构建包含大量UI元素及其对应位置、属性信息的数据集，训练模型将自然语言描述与屏幕上的视觉元素进行关联。这包括对按钮、文本框、图片、链接等各种UI组件的精确识别和边界框定位。此外，还支持细粒度的单词/字符定位，这意味着模型不仅能识别一个按钮，还能识别按钮上的具体文字，这对于需要精确文本交互的任务至关重要。

重要性：精确的定位能力是GUI自动化的基础，没有它，智能体就无法知道要操作哪个元素，也无法理解界面上各个组件的含义。

任务规划（Task Planning）pipeline：

目标：让GUI-Owl能够将复杂、长期的任务分解为一系列可执行的子步骤，并理解这些步骤之间的逻辑关系，从而实现高效的任务完成。

实现细节：研究团队从大量的成功历史轨迹中提炼出程序化知识，并结合LLM的强大推理能力，构建了任务规划数据集。这些数据包含了从高层任务目标到具体操作序列的映射，例如“预订机票”可能被分解为“打开订票应用”、“选择出发地和目的地”、“选择日期”、“选择航班”等一系列子任务。这使得模型能够学习到在不同场景下完成任务的最佳路径和策略，即使面对跨应用程序协作（如从邮件中提取信息并在浏览器中搜索）的任务也能有效应对。

重要性：规划能力是智能体处理复杂任务的关键，它决定了智能体能否高效、准确地完成多步骤操作，尤其是在需要多轮交互和状态转换的场景下。

动作语义（Action Semantics）pipeline：

目标：使GUI-Owl能够理解其执行的每个动作所带来的界面变化和潜在影响，从而形成对环境的深刻理解。

实现细节：通过捕捉动作执行前后的UI观察（屏幕截图），模型学习动作与状态转换之间的因果关系。例如，点击一个按钮后，界面可能会出现新的弹窗、内容更新、页面跳转等变化，模型需要理解这种变化是由于其点击动作引起的，并能预测不同动作可能导致的结果。这有助于模型建立一个内部的世界模型，从而进行更深层次的推理和反思。

重要性：理解动作语义有助于模型进行更深层次的推理和反思，从而避免无效操作，并在出现错误时进行自我纠正，提升了智能体的鲁棒性和适应性。

除了上述三种核心能力，研究团队还特别关注了推理与反思（Reasoning and Reflecting）能力的构建。他们通过多种数据合成技术，如离线提示引导拒绝采样（offline hint-guided rejection sampling）、从多智能体框架中蒸馏知识（distillation from a multi-agent framework）以及迭代在线拒绝采样（iterative online rejection sampling），来生成丰富的推理和反思数据。这种监督机制使得GUI-Owl不仅能够进行独立的逻辑推理，还能在Mobile-Agent-v3这样的多智能体框架中，与其他智能体进行复杂的协作推理，并根据其在框架中扮演的角色调整其推理风格。这极大地增强了GUI-Owl在面对未知或复杂情况时的适应性和鲁棒性，使其能够处理更具挑战性的开放式任务。

<ins/>

创新三：可扩展的环境强化学习与TRPO

为了进一步提升GUI-Owl在真实世界GUI自动化任务中的表现，研究团队引入了强化学习技术。他们开发了一个高度可扩展的训练框架，其核心在于一个统一的多任务训练接口，该接口能够标准化单轮推理任务和多轮智能体任务之间的交互。这一设计使得模型能够在一个统一的范式下学习不同复杂度的任务。

该框架的一个关键创新是将经验生成与策略更新解耦。这意味着模型在与环境交互生成经验（即操作轨迹）的同时，可以独立地进行策略更新。这种解耦提供了对策略遵循的细粒度控制，使得训练过程更加灵活和高效。更重要的是，这种设计支持完全异步训练，极大地加速了训练过程，并能更好地将模型的决策与实际用户在真实世界中的使用习惯对齐，从而提升了模型的实用性和泛化能力。

在强化学习领域，处理长且可变长度的动作序列一直是一个挑战，尤其是在在线环境中。传统的强化学习方法在处理稀疏和延迟奖励时往往效率低下。为了解决这一问题，论文引入了轨迹感知相对策略优化（Trajectory-aware Relative Policy Optimization, TRPO）。

其中，为批次中 token 的总数，是轨迹的轨迹级优势，而是当前策略与旧策略下一个 token 的概率比。这种经过裁剪的目标函数，在稳定训练的同时，能够有效利用整体轨迹级奖励信号，以应对长期的 GUI 自动化任务。

TRPO是一种新颖的强化学习算法，它具有以下特点：

轨迹级别奖励（Trajectory-level Rewards）：TRPO不再仅仅关注单个时间步的奖励，而是利用整个轨迹的奖励信息来计算每个时间步的优势（advantage）。具体来说，它使用轨迹的准确性和格式奖励之和来计算一个归一化的优势估计，并将这个优势均匀地分配给轨迹中的每一个动作。这种全局视角使得模型能够更好地理解长期行为对最终结果的影响，从而做出更明智的决策，尤其是在GUI自动化这种任务成功往往需要一系列正确操作的场景中。

重放缓冲区（Replay Buffer）：为了提高强化学习的稳定性和数据利用效率，TRPO采用了重放缓冲区。它将历史上成功的轨迹存储起来，并在训练过程中随机采样这些经验进行学习。这有助于打破数据之间的相关性，减少训练过程中的方差，并使得模型能够从更广泛的经验中学习，从而加速收敛并提高策略的稳定性。

策略优化目标：对于高分辨率的GUI屏幕截图，完整的轨迹会被分割成单步数据实例用于策略更新。损失函数会根据原始轨迹中的总步数进行缩放，以平衡优化过程。这种细致的优化策略确保了模型在处理复杂视觉信息和长序列操作时的有效性。

通过TRPO，GUI-Owl能够更有效地从实际交互中学习和优化其行为策略，尤其是在面对那些需要一系列复杂、连续操作才能完成的GUI自动化任务时。这种强大的强化学习能力，使得Mobile-Agent-v3在处理真实世界中的动态和不确定性方面表现出色，为构建鲁棒的GUI智能体提供了坚实的技术支撑。

<ins/>

Mobile-Agent-v3：协同工作的多智能体框架

Mobile-Agent-v3不仅仅是一个单一的GUI-Owl模型，它更是一个精巧设计的多智能体框架，通过协调多个专门的智能体来进一步提升GUI-Owl的性能，以应对更复杂、更长期的自动化工作流。这个框架将复杂的任务分解给不同的智能体，每个智能体各司其职，并通过协作机制共同完成目标。

Mobile-Agent-v3框架主要由以下四个核心智能体组成：

管理智能体（Manager Agent, M）：

角色：战略规划者。

职责：负责将用户给定的高层指令分解为一系列有序的子目标列表。它利用外部知识（通过检索增强生成RAG模块，例如使用维基百科、搜索引擎和用户提供的文档）来获取相关信息，并动态地根据执行结果和反馈更新规划。这意味着Manager Agent能够根据任务的进展和遇到的问题，灵活调整后续的步骤，确保任务能够顺利进行。

工作智能体（Worker Agent, W）：

角色：战术执行者。

职责：根据Manager Agent提供的子目标，结合当前的GUI状态、历史反馈和累积的笔记，选择并执行最相关的可操作子目标。它会生成一个动作元组，其中包含其思考过程（thought）、具体的动作命令（action command）以及对当前步骤的总结（summary）。Worker Agent是直接与GUI环境交互并执行操作的智能体，它将GUI-Owl的能力转化为实际的GUI操作。

反思智能体（Reflector Agent, R）：

角色：自我纠正机制。

职责：负责评估Worker Agent执行动作后的结果。它会比较Worker Agent预期的结果与实际的界面状态变化，将结果分类为成功、中立或有害，并生成详细的因果反馈。Reflector Agent的关键作用在于提供实时的、有指导性的反馈，帮助系统识别并纠正错误，从而提升整体的鲁棒性和学习效率。

笔记智能体（Notetaker Agent, C）：

角色：持久化上下文记忆维护者。

职责：仅在Reflector Agent判断为成功或中立时被触发。它负责从当前屏幕中提取并存储关键元素作为笔记，从而维护一个持续的上下文记忆。这些累积的记忆（包括关键UI元素、任务进展等）将支持Manager Agent未来的规划和Worker Agent的执行，避免重复探索和遗忘关键信息。

Mobile-Agent-v3框架以一个循环的方式运作：从用户指令开始，Manager Agent初始化规划，然后Worker Agent执行动作，Reflector Agent评估结果，Notetaker Agent更新记忆，最后Manager Agent根据反馈更新规划，直到任务完成或达到预设的停止条件。这种精巧的多智能体协作机制，使得Mobile-Agent-v3能够处理单一智能体难以完成的复杂、长周期和需要持续适应的任务，展现了多智能体系统在GUI自动化领域的巨大潜力。

<ins/>

卓越的性能表现

Mobile-Agent-v3框架及其核心模型GUI-Owl在多个主流GUI自动化基准测试中展现了卓越的性能，证明了其作为基础智能体的强大能力。这些基准测试全面评估了GUI-Owl在UI元素定位、单步决策、通用问答以及在线环境交互等方面的能力。论文通过一系列实验，不仅验证了GUI-Owl和Mobile-Agent-v3的有效性，还深入分析了各项创新技术对性能的贡献。

1. 端到端模型性能：GUI-Owl的领先地位

GUI-Owl作为端到端的多模态GUI智能体，在多个开放源代码模型中取得了新的SOTA（State-of-the-Art）性能。论文主要在以下两个关键基准上进行了评估：

AndroidWorld：这是一个针对Android移动设备GUI自动化任务的基准。GUI-Owl-7B模型在此基准上取得了66.4%的成功率，显著超越了同等规模的其他开源模型。

OSWorld：这是一个涵盖桌面操作系统（如Ubuntu、macOS、Windows）GUI自动化任务的基准。GUI-Owl-7B在此基准上取得了29.4%的成功率，同样表现出强大的泛化能力。

值得注意的是，当GUI-Owl与Mobile-Agent-v3框架结合时，其性能得到了进一步的显著提升：

在AndroidWorld上，成功率提升至73.3%。

在OSWorld上，成功率提升至37.7%。

这充分证明了Mobile-Agent-v3多智能体框架在复杂任务协调和执行方面的强大增益效果，使得GUI-Owl能够更好地发挥其潜力。

2. 超越专有模型：GUI-Owl-32B的强大实力

除了与开源模型的对比，论文还展示了GUI-Owl-32B（更大规模的模型）在性能上甚至超越了一些强大的专有模型，这在GUI自动化领域是一个里程碑式的成就：

MMBench-GUI：这是一个综合性的GUI理解和交互基准。GUI-Owl-32B在此基准上表现出色，其性能优于包括GPT-4o和Claude 3.7在内的所有模型。

AndroidControl：这是一个专注于Android设备控制的基准。GUI-Owl-32B同样在此基准上取得了领先地位，再次证明了其在复杂移动GUI操作上的卓越能力。

UI元素定位能力：在专门的UI元素定位评估中（如ScreenSpot V2/Pro, OSWorld-G, MMBench-GUI L2），GUI-Owl-32B不仅超越了所有同等规模的开源模型，而且与专有模型相比也具有极强的竞争力，这得益于其精细的Groundingpipeline训练。

这些结果表明，GUI-Owl不仅在开源领域树立了新的标杆，也为整个GUI自动化领域带来了新的可能性，证明了通过大规模数据和先进训练方法，开源模型也能达到甚至超越商业闭源模型的性能。

<ins/>

3. 消融研究与关键技术贡献

论文还通过详细的消融研究（Ablation Studies）验证了Mobile-Agent-v3中各项关键技术组件的有效性：

TRPO策略的有效性：实验结果显示，引入轨迹感知相对策略优化（TRPO）策略显著提升了模型在在线环境中的表现。例如，在OSWorld-Verified基准上，TRPO策略将成功率从27.1%提升到了34.9%以上，这强调了其在处理稀疏奖励和长序列动作方面的优势。

在线过滤、重放缓冲区和经验管理：消融研究证实，这些机制对于训练的稳定性和效率至关重要。在线过滤确保了高质量数据的输入，重放缓冲区则有效利用了历史经验，减少了训练过程中的方差，使得模型能够更稳定地学习。

历史图像数量和交互步长预算：实验表明，模型的性能与所使用的历史图像数量以及交互步长预算呈正相关。这意味着提供更丰富的上下文信息和允许更长的交互序列，有助于模型做出更准确的决策。

推理数据合成：论文详细分析了推理数据合成策略（包括离线提示引导拒绝采样、多智能体框架蒸馏和迭代在线拒绝采样）对GUI-Owl推理能力的增益。这些方法共同作用，逐步增强了GUI-Owl的推理能力，使其能够处理更复杂的逻辑和任务。

这些深入的实验分析不仅展示了Mobile-Agent-v3和GUI-Owl的卓越性能，也为未来的GUI自动化研究提供了宝贵的经验和方向，证明了其创新方法在提升智能体能力方面的关键作用。

结论与展望

Mobile-Agent-v3框架及其核心模型GUI-Owl的发布，无疑为GUI自动化领域注入了新的活力。通过其在大规模环境基础设施、多样化的基础智能体能力构建以及可扩展的环境强化学习这三大方面的创新，研究团队不仅提升了GUI智能体的性能上限，更重要的是，为构建能够真正理解并操作复杂GUI环境的通用智能体奠定了坚实的基础。

GUI-Owl作为一个端到端的多模态智能体，其在多平台、多任务上的卓越表现，以及在多智能体框架中的灵活集成能力，预示着GUI自动化将不再局限于简单的重复性任务，而是能够处理更具挑战性、需要复杂推理和规划能力的场景。特别是“自我进化GUI轨迹生产”框架的提出，为高质量、大规模的GUI交互数据收集提供了一条可持续的路径，有望解决长期以来困扰该领域的数据瓶颈问题。