SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。

主要内容

提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Click,并设计一种方法来自动处理grounding数据,提出了一个重要的数据集Screen Spot。

动机和方法

整体动机和方法

现有的gui-agent大多通过提取的结构化数据与环境进行交互,这些结构化数据可能是显著冗长的(例如, HTML),有时是不可访问的。
具体地:

  • 1.结构化文本并不总是可访问的,iOS或桌面应用程序;
  • 2.结构化文本的冗长性构成了LLMs的低效语境,同时也省略了版面、图像和图标等关键信息;
  • 3.结构化文本的多样性,包括HTML、DOM和Android VH,需要对特定任务的观察和操作空间进行管理。
描述

1. GUI grounding for LVLMs

将数值视为自然语言,不需要任何额外的标记化或预处理/后处理,直接计算交叉熵损失(分类问题)。

2. Data Construction

使用三种数据集对SeeClick进行训练:从互联网上爬取的Web UI数据、从公共数据集中重组的手机UI数据和一般的视觉-语言指令-跟随数据(Web+Mobile+Gerneral)

3. Training Details

基于Qwen-VL在收集的大量数据集上训练10K步(约1epoch)得到SeeClick base模型。

4. ScreenSpot: A Grounding Benchmark

动机:然而,早期视觉语言模型的有限能力导致了有限的关注,很少有研究,主要局限于2017年收集的Android数据集。
方法:为了弥补这一研究空白,我们引入了ScreenSpot,这是一个最新的、现实的、包含各种GUI平台的接地评估基准。它旨在评估视觉语言模型根据指令定位屏幕元素的能力

实验分析

ScreenSpot

描述

Mind2Web

其中包括从137个真实网站收集的2000多个开放式任务,每个任务都有高级指令和相应的人体动作轨迹
(明显感觉MindAct方法更好)

描述

AITW

Android自动化数据集Android In The Wild ( AITW ),包含30k条指令和相应的715k条操作轨迹。

描述
posted @ 2025-03-08 14:42  WeihangZhang  阅读(118)  评论(0)    收藏  举报