2025 年 4月 26 日随笔档案 - Xu_Lin

2025年4月26日

摘要：多模态大语言模型的总结结构与原理结构示意图多模态输入 → 特征提取与对齐 → 语义理解与推理 → 多模态输出生成 MLLM架构组件模型组件作用及介绍模态编码器（Modality Encoder) 将不同模态的输入（如图像、音频、视频）编码为特征表示。常用的视觉编码器包括CLIP ViT、阅读全文

posted @ 2025-04-26 17:32 Xu_Lin 阅读(924) 评论(0) 推荐(0)

Xu_Lin

Do more; Learn more; Be more

公告