摘要: CogAgent: 利用VLM操作GUI。 官方技术报告 主要内容 提出了一个18B的VLM模型CogAgent(CogVLM的新版本),旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入,在9个VQA benchmarks上取得了sota。同时,CogAge 阅读全文
posted @ 2025-01-19 23:46 WeihangZhang 阅读(172) 评论(0) 推荐(0)