会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Weihang Zhang
Blogs of Weihang Zhang
首页
新随笔
联系
订阅
管理
2025年1月19日
CogAgent: A Visual Language Model for GUI Agents
摘要: CogAgent: 利用VLM操作GUI。 官方技术报告 主要内容 提出了一个18B的VLM模型CogAgent(CogVLM的新版本),旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入,在9个VQA benchmarks上取得了sota。同时,CogAge
阅读全文
posted @ 2025-01-19 23:46 WeihangZhang
阅读(172)
评论(0)
推荐(0)
公告