MONDAY：从视频自动构建 GUI Agents 轨迹数据

type

status

date

slug

summary

MONDAY: Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents, LG AI Research

https://github.com/runamu/monday：构建代码开源，数据集开源

GUI 智能体的性能高度依赖于大规模、高质量的训练数据。当前，构建此类数据集面临诸多挑战，包括数据获取成本高昂、难以覆盖多样的真实应用场景和不同的操作系统平台（如Android与iOS），以及对物理设备的直接访问需求。这些因素极大地限制了移动智能体的跨平台泛化能力和实际部署。本文提出了一种创新的解决方案，旨在攻克上述难题。该研究不仅提出了一个可扩展的自动化数据构建框架，还发布了一个名为MONDAY的新数据集。

该论文的核心贡献在于提出了一种从公开可用的在线视频中自动生成大规模 Mobile GUI 轨迹数据集的框架，并基于此框架构建了 MONDAY (Mobile OS Navigation Task Dataset for Agents) 数据集。

MONDAY具有以下特点：

多样性：涵盖安卓和iOS系统，数据来自2479个应用程序，包括系统应用和各种图形用户界面配置。

大规模：包含20,320个序列和312,754个带注释的帧。

真实性：任务来源于CommonCrawl网页帖子（如C4、Dolma数据集），视频源自YouTube，捕捉真实的现实世界移动交互。

接下来详细介绍 MONDAY 的构造过程。

1. 移动导航视频采集

任务获取

数据采集过程起始于 CommonCrawl 的网页帖子，具体借助了 C4 和 Dolma 数据集。这些网页帖子反映了用户针对移动操作系统任务展开的实际讨论与提问。

首先运用 AndroidHowTo 域白名单的扩展版本对网页帖子进行筛选，该扩展版本在原有安卓相关域的基础上，纳入了与 iOS 相关的网站。

为进一步优化筛选结果，作者使用 GPT 3.5 对帖子进行过滤，并识别与移动操作系统导航指令对应的任务名称，比如 “How to change wallpaper in Android?” 或者 “How to turn on the location tag in Instagram?”。

视频采集

从经过筛选的帖子及其提取出的任务名称出发，搜索并下载时长不超过 15 分钟且带有英语旁白文字记录的 YouTube 视频。

最初下载了 129K 个视频，经过筛选流程后保留了 20K 个。

首先，利用 GroundingDINO 剔除不含手机屏幕的视频，保留了 70% 的视频。例如，安卓手表或 MacOS 相关的视频就会被筛除。

在检测到手机屏幕后，再筛除有人手遮挡屏幕场景的视频。具体做法是，使用谷歌 MediaPipe 手部关键点检测器找出同时检测到手部关键点与手机屏幕的视频，这样保留了剩余视频中的 40%。

接着，通过等距方式从视频中采样五帧，并让 GPT-4o 依据这些子采样帧检测操作系统与设备类型，以此进一步筛选视频，此步骤保留了 60% 的视频。作者仅纳入安卓或 iOS 手机相关视频，因为其他移动操作系统的视频占比不足 1%。

这样的筛选既确保了移动操作系统导航过程的画面清晰、无遮挡，又能通过文字记录保留叙述背景信息。

2. 场景转换检测

检测场景转换是提取导航过程的基础。一个关键挑战在于识别有意义的场景转换：过多的中间场景会使动作识别变得模糊，而跳过重要场景会使轨迹难以识别。

由于移动界面中的文本信息能够可靠地指示场景变化（例如，页面标题、菜单项），作者基于 OCR 的场景转换检测方法通过跟踪文本变化来识别显著的场景转换，从而实现更清晰的动作轨迹。

分离手机屏幕

为了进行场景转换检测，作者需要通过从每个视频中提取手机屏幕来识别不同的屏幕内容变化。考虑到设备位置在转换之间通常不会快速变化，作者使用 GroundingDINO 以每秒 2 帧（FPS）的速度检测手机屏幕。检测到的手机边界框有效地去除了现实世界视频中分散注意力的背景。分离出的手机屏幕作为作者检测场景转换的基础表示。

在此过程中，GroundingDINO 偶尔可能会在某些帧中未能检测到手机屏幕，特别是在视频动画和相机调整期间。为了处理这种情况，作者在成功检测到的帧之间应用线性插值，确保在整个视频中持续跟踪手机屏幕。

检测转换

在分离出手机屏幕后，作者使用文本内容而不是基于视觉的特征（例如，YUV 中的亮度差异）来检测场景转换。使用 Paddle OCR，作者从连续帧中提取文本及其位置。为了检测转换，作者跟踪相邻帧之间相同屏幕位置的文本元素，后续帧中缺失或变化的文本被视为内容变化。作者计算相应文本元素之间的 Levenshtein 距离，当变化文本的比例超过 20% 时标记为一次转换（作者通过初步实验凭经验设置此阈值）。

正如作者的评估结果所示，这种方法比基于视觉的方法更有效，因为文本渲染在不同的操作系统版本和用户设置（例如，亮 / 暗模式、录制条件）下保持相对一致。