会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
vivo 互联网技术
分享 vivo 互联网技术干货与沙龙活动,推荐最新行业动态与热门会议。
博客园
首页
新随笔
联系
订阅
管理
2025年8月26日
EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式
摘要: 本文提出了一种无需额外训练的GUI定位框架DiMo-GUI,通过逐级缩放动态聚焦目标区域减少视觉冗余,并分离文本与图标模态独立推理后综合评估确定目标,有效平衡多模态能力。在基准测试中性能显著提升,适用于网页导航和移动应用自动化等场景。
阅读全文
posted @ 2025-08-26 16:25 vivo互联网技术
阅读(88)
评论(0)
推荐(0)
公告