SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents

SeeClick： screen shot + VLM 实现agent，提出了ScreenSpot数据集。

主要内容

提出SeeClick方法，仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Click，并设计一种方法来自动处理grounding数据，提出了一个重要的数据集Screen Spot。

动机和方法

整体动机和方法

现有的gui-agent大多通过提取的结构化数据与环境进行交互，这些结构化数据可能是显著冗长的(例如, HTML)，有时是不可访问的。
具体地：

1.结构化文本并不总是可访问的，iOS或桌面应用程序；
2.结构化文本的冗长性构成了LLMs的低效语境，同时也省略了版面、图像和图标等关键信息；
3.结构化文本的多样性，包括HTML、DOM和Android VH，需要对特定任务的观察和操作空间进行管理。

1. GUI grounding for LVLMs

将数值视为自然语言，不需要任何额外的标记化或预处理/后处理，直接计算交叉熵损失（分类问题）。

2. Data Construction

使用三种数据集对SeeClick进行训练：从互联网上爬取的Web UI数据、从公共数据集中重组的手机UI数据和一般的视觉-语言指令-跟随数据（Web+Mobile+Gerneral）

3. Training Details

基于Qwen-VL在收集的大量数据集上训练10K步（约1epoch）得到SeeClick base模型。

4. ScreenSpot: A Grounding Benchmark

动机：然而，早期视觉语言模型的有限能力导致了有限的关注，很少有研究，主要局限于2017年收集的Android数据集。
方法：为了弥补这一研究空白，我们引入了ScreenSpot，这是一个最新的、现实的、包含各种GUI平台的接地评估基准。它旨在评估视觉语言模型根据指令定位屏幕元素的能力

实验分析

ScreenSpot

Mind2Web

其中包括从137个真实网站收集的2000多个开放式任务，每个任务都有高级指令和相应的人体动作轨迹
(明显感觉MindAct方法更好)

AITW

Android自动化数据集Android In The Wild ( AITW )，包含30k条指令和相应的715k条操作轨迹。

posted @ 2025-03-08 14:42 WeihangZhang 阅读(118) 评论(0) 收藏举报

刷新页面返回顶部

Weihang Zhang

Blogs of Weihang Zhang