InfiGUI-R1：从反应式执行向推理式决策的进阶之路

type

status

date

slug

summary

[2504.14239] InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners, Zhejiang University

InfiGUI-R1
Github
InfiGUI-R1
Owner
Reallm-Labs
Updated
Jun 23, 2025

InfiGUI-R1 引入一种以推理为中心的渐进式训练方法，旨在系统地增强 MLLM 的能力，将 GUI Agents 从反应式执行者转变为深思熟虑的推理者（from Reactive Actors to Deliberative Reasoners）。

InfiGUI-R1 训练基模是 Qwen2.5-VL-3B-Instruct。

该框架分为两个阶段：

推理注入（Reasoning Injection）：为推理者奠定基础，利用 SFT 实现从反应式执行者(Perception → Action)到基础推理者(Perception → Reasoning → Action)的根本转变。

深思熟虑能力增强（Deliberation Enhancement）：将基础推理者提炼为深思熟虑的推理者，采用基于规则奖励的强化学习作为主要增强机制。

阶段 1：推理注入（Reasoning Injection）

阶段 1 的主要目标，是实现从反应式行动者（感知→行动）到基础推理者（感知→推理→行动）的根本性转变。

在阶段 1 中，采用了空间推理蒸馏（Spatial Reasoning Distillation）方法，该方法旨在将空间推理能力清晰地融入智能体。

空间推理蒸馏（Spatial Reasoning Distillation）借助强大教师模型的推理能力，生成高质量的推理轨迹，随后这些轨迹被用于训练目标多模态大语言模型（MLLM，即学生模型）。其核心思路在于，引导学生模型不仅要学会正确的行动，还要掌握达成该行动的中间推理步骤，尤其是涉及空间逻辑的步骤。这一过程通过以下步骤来实现。

(1) 确定推理瓶颈样本

为最大程度提高蒸馏效率，作者首先找出那些基础多模态大语言模型（MLLM）之所以失败，极有可能是因为推理能力不足，而非基本感知或行动执行方面存在缺陷的交互步骤。作者将这些步骤称为推理瓶颈样本（Reasoning Bottleneck Samples）。对于给定轨迹中的每个步骤，通过以下两步标准进行识别：

base MLLM 在获取当前屏幕截图与总体任务目标时，无法预测出正确行动。记。

然而，若针对该特定步骤，为模型额外提供真实子目标，它就能成功预测出正确行动。记。

推理瓶颈步骤集合 的定义如下：

这些样本所代表的步骤，主要难点在于依据视觉上下文（），从总体目标（）中推断出当下任务（），这使得它们成为推理注入的理想选择。

(2) 生成空间推理轨迹

对于每一个属于 的步骤 ，作者利用高能力的教师模型来生成详细的推理轨迹。这一过程包含以下两个方面：

空间信息提取与压缩（Spatial Information Extraction and Compression）：作者从与截图关联的无障碍树（a11y 树）中，提取相关的结构和空间信息（比如元素类型、文本内容、坐标、层级结构等），并过滤掉无关的属性和元素。随后，借助强大的多模态大语言模型（MLLM，如 Qwen2.5-VL-32B-Instruct），将这些经过处理的信息压缩成简洁的文本描述 。该描述涵盖了 GUI 页面的详细信息，包括特定步骤下所有相关元素的坐标信息及描述，完整捕捉了基本的空间布局和关键元素细节。

推理轨迹生成（Reasoning Trajectory Generation）：将压缩后的空间描述 、可用的行动空间描述以及总体目标 ，输入到具有强大推理能力的大语言模型（例如 QwQ-32B [46]）中。促使这个教师模型生成清晰的推理文本 以及相应的行动。特别要注意的是，要引导 清晰阐述逻辑步骤，包括运用 中的空间信息来进行元素定位、关系评估以及对行动进行论证。

(3) 通过 SFT 进行推理注入

首先，依据预测行动 的正确性，运用拒绝采样的方式，对生成的 对进行筛选以保证质量。随后，利用剩余的 对，对 base MLLM 进行 SFT 微调。SFT 的目标，是训练学生模型，使其在获得截图与总体目标时，能够预测出教师模型的推理过程及行动，即。通过学习在输出行动前，显式生成或隐式模拟这些推理步骤，学生模型将 “感知→推理→行动” 模式内化。

<ins/>

阶段 2：审慎性提升（Deliberation Enhancement）

RL 基本设定

在阶段 1 所构建的基础推理模型的基础上，阶段 2 旨在优化其能力，使其转变为审慎推理者。这一阶段主要运用基于规则奖励的强化学习（RL）作为提升手段。其核心思路是，通过着重关注两个方面，培养智能体更为复杂的 “审慎性” 决策能力：一是前瞻性规划，二是回顾性反思与纠正。为解决这两方面的问题，在强化学习（RL）过程中融入了两项关键创新举措：子目标引导，用于加强规划与任务分解；错误恢复场景构建，以推动智能体的自我纠正并增强其稳健性。

强化学习使用的是 REINFORCE Leave-One-Out (RLOO) 算法。

为保证智能体在增强针对 GUI 的审慎思考能力的同时，不削弱其通用多模态理解能力与视觉基础，RL 训练阶段采用了多样化的数据组合。其中涵盖核心 GUI 轨迹数据（如源自 AndroidControl [26]）、GUI 元素定位数据（如来自小部件字幕数据集 [27]）、通用多模态推理问答数据集以及目标检测数据集（如出自 COCO [30]）。

📌

AndroidControl (10k trajectories + 2k reflection-focused trajectories), GUI Grounding data (5k samples aggregated from RicoSCA, Widget Caption, etc.), MathV360K (11k samples for general reasoning), and COCO (4k samples for general visual grounding and understanding).

RL 训练时使用了多种不同类型的任务数据，这个跟之前的工作还是很不相同的。

作者设计了比较细致的规则奖励函数。

总奖励 综合考量了输出格式的正确性与任务执行的准确性，计算公式为：

用于检查模型的输出是否符合预期格式（比如，把推理过程放在 <think> </think> 标签之中），若符合则取值为 1，否则为 0 。用来衡量内容的准确性，并且只有当时才会进行计算，以此保证智能体先学会生成结构上有效的输出。和是加权超参数（）。

准确性奖励 是针对各个特定任务类型专门设定的，比如 Navigation 任务通过判断动作类型和参数是否正确，Grounding 任务判断预测点与真实 bbox 是否有重叠，VQA 判断数据文字是否与真实文字精确匹配，数学任务则直接判断值是否一致。具体见论文。

按照已有的激发推理的方法，作者采用了一个系统提示（system prompt），明确要求模型在给出最终行动方案前，先在内部梳理并阐述自身的推理过程。具体使用的 prompt 如下：

子目标引导（Sub-goal Guidance）

为了把基础推理者提升为能够进行复杂规划的审慎推理者，阶段 2 的一个关键要点在于提升其任务分解能力。在复杂的 GUI 环境下，当要求标准多模态大语言模型（MLLMs）从高层次目标自主推断出必要的中间步骤时，它们往往表现不佳。子目标引导就是为了在强化学习（RL）框架中解决这一问题而设计的，它通过激励智能体制定并落实准确的子目标，推动规划变得更有条理、更高效。具体做法是评估智能体推理过程中所隐含的子目标质量。

在 RL 训练过程中，为促使智能体准确地制定子目标，作者将子目标质量评估纳入智能体的奖励体系。作者对推理文本中隐含生成的子目标的质量进行评估。

在训练阶段，对于每一个步骤，作者会运用轻量级评分 LLM 来分析智能体的推理输出（即 <think>...</think> 标签内的文本），尝试从中提取隐含的子目标，将其标记为。随后，把提取出的子目标与相应的真实子目标（该真实子目标从数据集标注获取）做对比。依据和 的语义匹配程度，给出一个介于 1 到 10 之间的原始分数 。若评分 LLM 无法从推理文本中提取到子目标，那么就设为 0。之后，将这个原始分数归一化到区间，从而得出最终的子目标奖励：

这个经过归一化处理的分数 ，作为一个中间奖励信号，体现了智能体在当前步骤的规划质量。为了着重激励智能体，即便最终行动执行出现失败，依然能够做出正确规划，作者将纳入智能体轨迹任务奖励当中。

错误恢复场景构建（Error Recovery Scenario Construction）

子目标引导有助于提升模型的前瞻性规划能力，然而，要培养出审慎推理者，还需其具备反思错误并从中恢复的能力，而标准的 GUI 智能体往往缺乏这一能力，它们一旦出现故障，常常难以恢复。为增强智能体的稳健性与适应性，作者运用了错误恢复场景构建技术。该技术将特定的故障恢复情形融入RL 训练过程，直接致力于提升智能体的反思与纠错推理能力。这种机制通过强化智能体的回溯调整能力，对规划能力起到补充作用。

识别易出错步骤：为了最大程度提高训练效率，作者首先找出智能体表现不稳定的交互步骤。对于特定的步骤，作者运用基础模型（如 Qwen2.5-VL-3B-Instruct），在较高的温度参数下对个行动序列进行采样。若某个步骤的成功率 处于 0 到 1 之间（），则将其认定为易出错步骤，这些步骤构成集合。这意味着在这些步骤中，智能体虽具备采取正确行动的能力，但也容易犯错，是学习纠正策略的绝佳契机。在智能体始终能成功完成或始终失败的步骤上开展训练，对于学习错误恢复的效率较低。因为前者无需纠错，而后者可能反映出更深层次的问题，简单的恢复训练可能会让这些问题变得更加复杂。

构建恢复场景：针对每一个属于的易出错步骤，作者为 RL 训练构建两种不同类型的场景，每种场景都针对错误处理的特定方面进行教学：

错误逃离场景（Error Escape Scenario.）：该场景的主要目的是训练智能体识别自身已进入错误状态，并执行合适的 “逃离” 操作（比如按下返回按钮）。为实现这一模拟，作者选取在识别阶段采样得到的错误行动 ，这一行动会引发意外的后续观察结果 。随后，将此错误观察结果与修改后的历史记录（这里代表步骤之前的历史记录，表示连接操作）一同展示给强化学习智能体。在此情形下，期望智能体做出的行为是输出预先设定好的逃离行动 。

重回正轨场景（Back on Track Scenario）：此场景意在训练智能体的反思性调整能力，使其在从错误中恢复后，能够回归到预期的任务流程。假设智能体刚刚从错误状态执行了逃离行动，从而回到步骤时的原始观察状态。此时，将原始观察展示给智能体，但它的历史记录体现了刚刚经历的偏差，即。在这种 “重回正轨” 的状态下，期望智能体针对步骤执行原本正确的行动，以此证明其即便经历了之前的失败，仍具备重新评估局势并正确推进任务的能力。

所构建的 “错误逃离” 和 “重回正轨” 场景样本，会整合到阶段 2 RL 训练所用的数据里。当智能体把这些场景作为输入，并生成输出时，会用同一个综合奖励函数来评估其表现。在第一种场景中，对成功的逃离行动给予奖励；在第二种场景里，对后续的正确行动予以奖励。如此一来，强化学习过程便着重增强了智能体应对失败的自适应策略。这种有的放矢的训练，加上任务分解能力，进一步推动智能体向审慎推理者转变。

<ins/>

实验

GUI 理解和定位能力：在 ScreenSpot 数据上的效果超过了 UI-TARS-2B（没和 UI-TARS-7B 对比）。在 ScreenSpot-Pro 数据上的效果也超过了 UI-TARS-2B，和 UI-TARS-7B 持平。

GUI Navigation 能力：在 AndroidControl 上效果超过了 UI-TARS-2B（没和 UI-TARS-7B 对比）。

UI Agents 知识星球

UI Agents 技术发展迅猛，想紧跟 UI agents 技术前沿？我们的知识星球每周以视频方式解读最新论文，为你开启技术新视野，快来加入吧！

加入知识星球，每周获取会员专享视频👇

扫码加微信小助手为好友，备注「agent」，小助手会定期邀请入群👇

当前星球包含的专享视频包括：

【2025.04.29】GUI Agent 最新技术：InfiGUI-R1—从反应式执行向推理式决策的进阶之路

【2025.04.13】GUI Agent 最新技术：自动驾驶与具身智能技术能带来哪些启示？

【2025.03.09】GUI Agent 最新技术：ATLaS—同时提升训练效率和模型泛化性

【2025.03.03】GUI Agent 技术分享：DigiQ/VEM—使用 RL 提升模型的泛化能力

【2025.01.25】UI Agent 技术分享： UI-TARS—利用长期记忆和反思调整迭代优化模型

【2025.01.19】AI Agent 技术分享：Insight-V—探索 VLM 的长链条视觉推理能力

【2025.01.12】UI Agent 技术分享：PC-Agent—提升模型认知能力以便更好完成复杂任务

【2025.01.05】UI Agent 技术分享：OS-Genesis—自动合成高质量且多样化的训练数据

【2024.12.29】UI Agent 技术分享：PAE-通过自动探索新任务不断扩展模型能力

【2024.12.22】UI Agent 技术分享：Iris-通过自动构造的数据提升模型效果

【2024.12.15】UI Agent 技术分享：Falcon-UI—利用无监督数据预训练 UI Agent 模型

【2024.12.08】UI Agent 技术分享：Aguvis-来自 HKU & Salesforce 的大一统训练数据和训练框架

【2024.12.01】UI Agent 技术分享：ShowUI-当前最好的 UI Agents 开源模型，还适用中文 APP？

【2024.11.24】UI Agent 技术分享：使用世界模型提升 UI Agents 效果？

【2024.11.17】UI Agent 技术分享：来自华为诺亚方舟实验室的 LiMAC

【2024.11.11】UI Agent 技术分享：来自 LG AI Research 的 Auto-Intent

<ins/>