摘要: SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。 主要内容 提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Clic 阅读全文
posted @ 2025-03-08 14:42 WeihangZhang 阅读(141) 评论(0) 推荐(0)