会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
脂环
博客园
首页
新随笔
联系
订阅
管理
2024年12月31日
LLaVA-OneVision: Easy Visual Task Transfer论文阅读笔记
摘要: Motivation & Abs LLaVA-OneVision 是一种整合数据、模型和视觉表征的开源多模态模型,首次在单图像、多图像和视频三大计算机视觉场景中实现性能突破。其设计支持跨模态/场景的强迁移学习,尤其通过图像任务迁移展现了强大的视频理解和跨场景能力。 Method Network Ar
阅读全文
posted @ 2024-12-31 10:40 脂环
阅读(414)
评论(0)
推荐(0)
公告