会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Xu_Lin
Do more; Learn more; Be more
博客园
首页
新随笔
联系
订阅
管理
2025年4月26日
【多模态学习】多模态大语言模型(MM-LLMs)的研究相关调研
摘要: 多模态大语言模型的总结 结构与原理 结构示意图 多模态输入 → 特征提取与对齐 → 语义理解与推理 → 多模态输出生成 MLLM架构组件 模型组件 作用及介绍 模态编码器(Modality Encoder) 将不同模态的输入(如图像、音频、视频)编码为特征表示。常用的视觉编码器包括CLIP ViT、
阅读全文
posted @ 2025-04-26 17:32 Xu_Lin
阅读(688)
评论(0)
推荐(0)
公告