会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ZacksTang
博客园
首页
新随笔
联系
管理
订阅
2024年11月28日
视觉多模态理解模型基础
摘要: 1. 视觉多模态简介 视觉多模态一般涵盖2个要点:视觉表征 以及 视觉与自然语言的对齐(Visual Language Alignment)或融合。 1.1. 视觉表征 视觉表征是指:将图像信息转化为深度学习模型可以处理的特征向量或向量序列的过程。具体来说,它包含以下2点: 合理建模视觉输入特征:这
阅读全文
posted @ 2024-11-28 22:58 ZacksTang
阅读(1857)
评论(0)
推荐(0)
公告