摘要: 多模态大语言模型的总结 结构与原理 结构示意图 多模态输入 → 特征提取与对齐 → 语义理解与推理 → 多模态输出生成 MLLM架构组件 模型组件 作用及介绍 模态编码器(Modality Encoder) 将不同模态的输入(如图像、音频、视频)编码为特征表示。常用的视觉编码器包括CLIP ViT、 阅读全文
posted @ 2025-04-26 17:32 Xu_Lin 阅读(688) 评论(0) 推荐(0)