type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 

MONDAY: Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents, LG AI Research

GUI 智能体的性能高度依赖于大规模、高质量的训练数据。当前,构建此类数据集面临诸多挑战,包括数据获取成本高昂、难以覆盖多样的真实应用场景和不同的操作系统平台(如Android与iOS),以及对物理设备的直接访问需求。这些因素极大地限制了移动智能体的跨平台泛化能力和实际部署。本文提出了一种创新的解决方案,旨在攻克上述难题。该研究不仅提出了一个可扩展的自动化数据构建框架,还发布了一个名为MONDAY的新数据集。
该论文的核心贡献在于提出了一种从公开可用的在线视频中自动生成大规模 Mobile GUI 轨迹数据集的框架,并基于此框架构建了 MONDAY (Mobile OS Navigation Task Dataset for Agents) 数据集
MONDAY具有以下特点:
  • 多样性:涵盖安卓和iOS系统,数据来自2479个应用程序,包括系统应用和各种图形用户界面配置。
  • 大规模:包含20,320个序列和312,754个带注释的帧。
  • 真实性:任务来源于CommonCrawl网页帖子(如C4、Dolma数据集),视频源自YouTube,捕捉真实的现实世界移动交互。
notion image
 
接下来详细介绍 MONDAY 的构造过程。

1. 移动导航视频采集

任务获取

数据采集过程起始于 CommonCrawl 的网页帖子,具体借助了 C4 和 Dolma 数据集。这些网页帖子反映了用户针对移动操作系统任务展开的实际讨论与提问。
首先运用 AndroidHowTo 域白名单的扩展版本对网页帖子进行筛选,该扩展版本在原有安卓相关域的基础上,纳入了与 iOS 相关的网站。
为进一步优化筛选结果,作者使用 GPT 3.5 对帖子进行过滤,并识别与移动操作系统导航指令对应的任务名称,比如 “How to change wallpaper in Android?” 或者 “How to turn on the location tag in Instagram?”。
 

视频采集

从经过筛选的帖子及其提取出的任务名称出发,搜索并下载时长不超过 15 分钟且带有英语旁白文字记录的 YouTube 视频。
最初下载了 129K 个视频,经过筛选流程后保留了 20K 个。
  • 首先,利用 GroundingDINO 剔除不含手机屏幕的视频,保留了 70% 的视频。例如,安卓手表或 MacOS 相关的视频就会被筛除。
  • 在检测到手机屏幕后,再筛除有人手遮挡屏幕场景的视频。具体做法是,使用谷歌 MediaPipe 手部关键点检测器找出同时检测到手部关键点与手机屏幕的视频,这样保留了剩余视频中的 40%。
  • 接着,通过等距方式从视频中采样五帧,并让 GPT-4o 依据这些子采样帧检测操作系统与设备类型,以此进一步筛选视频,此步骤保留了 60% 的视频。作者仅纳入安卓或 iOS 手机相关视频,因为其他移动操作系统的视频占比不足 1%。
这样的筛选既确保了移动操作系统导航过程的画面清晰、无遮挡,又能通过文字记录保留叙述背景信息。
notion image

2. 场景转换检测

检测场景转换是提取导航过程的基础。一个关键挑战在于识别有意义的场景转换:过多的中间场景会使动作识别变得模糊,而跳过重要场景会使轨迹难以识别。
由于移动界面中的文本信息能够可靠地指示场景变化(例如,页面标题、菜单项),作者基于 OCR 的场景转换检测方法通过跟踪文本变化来识别显著的场景转换,从而实现更清晰的动作轨迹。

分离手机屏幕

为了进行场景转换检测,作者需要通过从每个视频中提取手机屏幕来识别不同的屏幕内容变化。考虑到设备位置在转换之间通常不会快速变化,作者使用 GroundingDINO 以每秒 2 帧(FPS)的速度检测手机屏幕。检测到的手机边界框有效地去除了现实世界视频中分散注意力的背景。分离出的手机屏幕作为作者检测场景转换的基础表示。
在此过程中,GroundingDINO 偶尔可能会在某些帧中未能检测到手机屏幕,特别是在视频动画和相机调整期间。为了处理这种情况,作者在成功检测到的帧之间应用线性插值,确保在整个视频中持续跟踪手机屏幕。

检测转换

在分离出手机屏幕后,作者使用文本内容而不是基于视觉的特征(例如,YUV 中的亮度差异)来检测场景转换。使用 Paddle OCR,作者从连续帧中提取文本及其位置。为了检测转换,作者跟踪相邻帧之间相同屏幕位置的文本元素,后续帧中缺失或变化的文本被视为内容变化。作者计算相应文本元素之间的 Levenshtein 距离,当变化文本的比例超过 20% 时标记为一次转换(作者通过初步实验凭经验设置此阈值)。
正如作者的评估结果所示,这种方法比基于视觉的方法更有效,因为文本渲染在不同的操作系统版本和用户设置(例如,亮 / 暗模式、录制条件)下保持相对一致。
notion image

3. 动作识别

UI 元素检测

作者实现了一个基于 GroundingDINO + OCR 的检测模块。在识别图像中精确动作位置时,作者采用SoM(Set-of-Marks)方法,该方法在检测到的 UI 元素上叠加编号标签。
该系统采用两阶段的方法。首先,作者使用阈值较为宽松的 GroundingDINO 来检测潜在的 UI 元素:
  • 边界框置信度阈值:0.04
  • 文本置信度阈值:0.25
  • 标题提示(Caption prompt):“icon”
作者特意采用较低的边界框置信度阈值,以便最大程度地覆盖 UI 元素检测范围,后续再通过过滤步骤去除误报。
接着,作者应用针对移动设备(mobile)的过滤启发式规则:
  • 整合经 OCR 检测到的文本元素边界框
  • 删除过大的元素(边界框面积大于屏幕的 0.4)
  • 合并交集显著的重叠边界框(交并比 IoU 大于 0.5)
  • 根据宽高比和相对位置进行过滤
对于文本元素,作者还执行额外处理,以识别交互式文本组件,比如上下文菜单选项(如文本帖子中的 “more” 按钮)或可操作标签(如电子邮件中的 “unsubscribe” 按钮):
  • 按自然空格拆分文本
  • 根据字符数量,为每个由空格拆分的文本片段计算边界框
  • 将主色调设为背景色
  • 选择次主色调作为文本颜色
  • 若 LAB 空间中的颜色差异大于 50,则添加边界框(以步长 5 逐步减小,直至文本框检测成功)
notion image

三步动作识别

作者的动作标注过程采用了一种使用 GPT-4o 的新颖三步法,在每一步中纳入视频旁白,以消除复杂场景中动作的歧义。基于 SoM 表示,作者使用编号标签识别动作,随后使用相应 UI 元素边界框的中心点将其转换为屏幕坐标,如图 2 所示。
基于 SoM 表示和旁白,这三个步骤按如下方式逐步优化作者识别出的动作。
  • 首先,作者对每一帧(不包含 UI 元素标记)做 summary,以提供屏幕布局和 UI 元素的无遮挡视图。
  • 其次,作者通过分析当前帧和相邻帧(前两帧和后两帧)的 summary、SoM 表示和旁白,初步确定当前屏幕上可以执行的一系列动作。这种时间上下文有助于消除动作序列的歧义,而当多个 UI 元素可实现类似效果时,旁白提供关键指导。
  • 在最后的优化步骤中,作者通过在先前检测到的 UI 元素周围创建放大视图,并将这些带有 SoM 表示的视图反馈给 GPT-4o,来解决 VLMs 在精确空间定位方面的局限性。这种放大方法通过关注特定屏幕区域实现更准确的 UI 元素选择。
图 2 展示了完整的框架,这些组件如何协同工作从 YouTube 视频中提取移动操作系统任务。通过在这个逐步优化过程中考虑当前帧、相邻帧和潜在的 UI 元素,作者的方法在不同平台和配置下实现了稳健的动作识别。
notion image
 
作者做了消融实验,用以评估所提出的多步骤方法:
  • “2-step”:省去最后一步的细化,仅采用场景总结与初始动作识别。
  • “1-step”:直接进行动作识别,不经过中间步骤(场景总结或细化)。
  • “无旁白”:在无旁白的情况下进行动作识别。
  • “第一步使用单张图像”:第一步的总结仅利用当前帧。
notion image
 

实验

MONDAY-induced variant,就是拿 MONDAY 数据对原有模型做 Lora 微调。
notion image
 
 

UI Agents 知识星球

UI Agents 技术发展迅猛,想紧跟 UI agents 技术前沿?我们的知识星球每周以视频方式解读最新论文,为你开启技术新视野,快来加入吧!
加入知识星球,每周获取会员专享视频👇
notion image
 
扫码加微信小助手为好友,备注「agent」,小助手会定期邀请入群👇
notion image
当前星球包含的专享视频包括:
 
<ins/>
 
About MeInfiGUI-R1:从反应式执行向推理式决策的进阶之路
Loading...