摘要: 本文提出了一种无需额外训练的GUI定位框架DiMo-GUI,通过​​逐级缩放动态聚焦​​目标区域减少视觉冗余,并​​分离文本与图标模态​​独立推理后综合评估确定目标,有效平衡多模态能力。在基准测试中性能显著提升,适用于网页导航和移动应用自动化等场景。 阅读全文
posted @ 2025-08-26 16:25 vivo互联网技术 阅读(88) 评论(0) 推荐(0)