摘要: 1. 对于不具备多模态能力的大模型,有哪些方式可以让之得到多模态感知能力?哪一种效果最好? 常见方式有: Adapter/Prompt Tuning(适配器/提示微调) 在原有大模型(如LLM)前面加上专门的多模态适配器(如视觉编码器),将图片、音频等模态的信息编码为文本token或embeddin 阅读全文
posted @ 2025-07-31 19:49 Xu_Lin 阅读(350) 评论(0) 推荐(0)