2024 年 12月 31 日随笔档案 - 脂环

2024年12月31日

LLaVA-OneVision: Easy Visual Task Transfer论文阅读笔记

摘要： Motivation & Abs LLaVA-OneVision 是一种整合数据、模型和视觉表征的开源多模态模型，首次在单图像、多图像和视频三大计算机视觉场景中实现性能突破。其设计支持跨模态/场景的强迁移学习，尤其通过图像任务迁移展现了强大的视频理解和跨场景能力。 Method Network Ar 阅读全文

posted @ 2024-12-31 10:40 脂环阅读(414) 评论(0) 推荐(0)

Loading

脂环

公告