会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Weihang Zhang
Blogs of Weihang Zhang
首页
新随笔
联系
订阅
管理
2025年3月8日
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
摘要: SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。 主要内容 提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Clic
阅读全文
posted @ 2025-03-08 14:42 WeihangZhang
阅读(141)
评论(0)
推荐(0)
公告