2025 年 8月 26 日随笔档案 - vivo互联网技术

摘要：本文提出了一种无需额外训练的GUI定位框架DiMo-GUI，通过逐级缩放动态聚焦目标区域减少视觉冗余，并分离文本与图标模态独立推理后综合评估确定目标，有效平衡多模态能力。在基准测试中性能显著提升，适用于网页导航和移动应用自动化等场景。阅读全文

posted @ 2025-08-26 16:25 vivo互联网技术阅读(113) 评论(0) 推荐(0)

vivo 互联网技术