Aguvis 相关资料:
Aguvis 这个词应该是作者造的,没查到什么意思。发现这个工作的作者跟 OS-Copilot 还有耦合,而 OS-Copilot OS-Atlas 是相同的一作。
Aguvis 基于 Qwen2-VL-7B 和 Qwen2-VL-72B 进行全量微调(只 freeze ViT 部分),设置最大序列长度为 8192,max pixels 为 1280 x 720。
  • 生成了 IM(observation、thought、low-level instruction) 数据,相当于 planning & reasoning 数据,用于第二阶段的模型微调。验证了 IM 数据能大幅提升模型的效果
  • 构建了统一的 grounding 和 reasoning 大数据集,数据即将开源
    • 利用 pyautogui 统一了不同平台的动作空间,这样来自不同平台的数据可以统一使用
  • 训练数据使用 grounding packing strategy 方法,把训练效率提升了 5 倍
    • 把多个单轮的 grounding 任务合成一个多轮的单个任务
  • 统一了 grounding 和 planning & reasoning 2 个训练阶段的数据格式


比较标准的两阶段训练方式。第一阶段主要针对 grounding 能力,第二阶段主要针对 planning & reasoning 能力。
notion image
Inner Monologue(内心独白,简称 IM)包括 3 个部分:
  1. observation description
  1. internal reasoning (thought)
  1. low-level action instruction
决策过程可以分为 2 步完成:Planner 生成 IM 内容,然后 Grounder 按照 产生具体的 grounding 信息。


把动作执行统一成了函数调用(可以借力 base 模型的 function call 能力):
notion image
类似函数调用的方式在 prompt 中告知有哪些函数是可调用的。

Aguvis Collection 数据集

Aguvis Collection 数据集是作者汇总其他数据集构建的训练数据集;包括以下 2 部分,顾名思义,对应上面的两阶段训练;后续会开源
  1. grounding split:作者把以下数据集中的 Meta 信息都统一成 pyautogui 命令格式的数据
    1. notion image
  1. planning & reasoning split
      • Thanks to our detailed inner monologue trajectory data, we implement a reasoning mixture approach, where the model is exposed to various levels of cognitive complexity, from straightforward low-level action instructions to full inner monologues that include observation descriptions, thoughts, and detailed action plans. By dynamically adjusting the complexity of these trajectories, we train the model to be adaptable, fostering step-by-step reasoning and high-level decision-making abilities. This diversity in reasoning ensures that the model can handle a wide range of tasks with nuanced understanding and precision.
      notion image

Grounding Stage

以下是 grounding 阶段训练使用的数据格式:
notion image
  1. 对于 grounding 数据,Prompt 中的 overall_goalprevious_actions 分别是什么?
  1. <|diff_marker|> 这个标记的用途是什么?
      • 模型可以利用这个标记来识别需要关注的特定部分,从而生成更加相关和准确的内容。例如,在进行内容编辑或补全时,模型能够基于此标记理解上下文中的变化。

Grounding Packing Strategy

效率提升了 5 倍,效果还稍微有点提升。
  • reduces overall GPU hours from 6 hours to 1 hour. Moreover, this strategy even marginally improve the performance of ScreenSpot website split from 73.3 to 76.8.
  • 可以在 16 个节点的机器上花费 2 天微调 72B VLM。
We train AGUVIS on a cluster of H100-80G GPUs: AGUVIS-7B uses 8 nodes and completes the grounding training within 5 hours and planning & reasoning training within 1 hour. AGUVIS-72B uses 16 nodes and completes the grounding training within 30 hours and planning & reasoning training within 6 hours.

Planning & Reasoning Stage

IM 是用户自己通过 GPT-4o 构造出来的。
使用 GPT-4o 生成 planning & reasoning 数据,以下是 prompt 和示例:
notion image
notion image
notion image
  • Match the action type and action target elements of the ground truth
  • Correctly describe the step’s intention
  • Establish a clear connection between the step’s intention and the overall goal
  • Assist the agent in successfully completing the task
在抽样的数据当中,作者发现 86.7% 展现出了与真实动作和总体目标的动作意图相一致的中间推理。剩下的 7.8% 的案例受到数据集噪声的影响(任务中的不相关或不必要动作),5.5% 的案例则是由于在干净数据下对动作意图的误读
作者分析发现,训练数据中的非必要动作可能致使 VLM 无法在这些多余动作和总体目标之间建立关联,最终造成不正确的推理和规划。
<|recipient|>all:预测 IM;<|recipient|>os:预测具体动作
作为对比,以下是上面给出的 Grounding 阶段的数据格式:
notion image
notion image
  • planning 阶段的具体动作选择,形式上和 grounding 阶段是一样的
  • Thanks to our detailed inner monologue trajectory data, we implement a reasoning mixture approach, where the model is exposed to various levels of cognitive complexity, from straightforward low-level action instructions to full inner monologues that include observation descriptions, thoughts, and detailed action plans. By dynamically adjusting the complexity of these trajectories, we train the model to be adaptable, fostering step-by-step reasoning and high-level decision-making abilities. This diversity in reasoning ensures that the model can handle a wide range of tasks with nuanced understanding and precision.
    • 第二阶段的训练数据中,也混合了 low-level instructions 数据?

Enforced Plan & Self Plan

  • <|recipient|>all:预测 IM;<|recipient|>os:预测具体动作
Enforced Plan: employ the <|recipient|>all\nThought prompt to compel the model to first generate a planning phase, and then a pyautogui command.
notion image
Self Plan: do not add any word after <|recipient|>, so the model can choose to generate os to directly produce a pyautogui command, or generate all to first create natural language reasoning and then generate a pyautogui command.
notion image
作者发现使用 Enforced Plan 能获得更好的效果,把 grounding Error 降低 20%。
notion image


Grounding 能力:
notion image
Planning 能力:
notion image


省略第二阶段(规划和推理)对模型的步骤成功率有更显著的负面影响,表明规划训练对于提高代理处理复杂 GUI 任务的能力至关重要
notion image
notion image
提升可归因于两个关键因素:使用 IM 让模型能够引出对当前步骤的推理,同时推理作为背景也有助于为后续步骤进行更有效的规划。
另外,将训练数据中的 low-level instructions 纳入进来提高了模型动作执行的准确性。


  • improving instruction clarity through the agent model itself(40% 的错误来自于指令不够清晰)
  • developing adaptive planning mechanisms
  • refining training data to include more diverse planning scenarios(更多任务类型)

