多模态大语言模型学习(1)
1.projector能将图像翻译为文本吗?
研究表明projector只负责空间对齐,经过projector的模态差异依旧明显[https://arxiv.org/abs/2410.07167](Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate)可视化了LLaVA的嵌入空间,发现文本特征和经过projector的图像特征在分布上依旧存在明显gap。
2.projector后的图像embedding语义信息薄弱。
[https://arxiv.org/abs/2402.16832](Cross-Modal Projection in Multimodal LLMs Doesn't Really Project Visual Attributes to Textual Space)发现:在特定领域上微调projector后,MLLM的最终输出更加准确,但project后的图像embedding中的领域特定信息的丰富度未能提升,甚至有所下降。这说明projector所编码领域特定的语义信息薄弱。
3.既然如此为什么LLM能理解非文本的embedding?
a. 不同模态在LLM中逐步得到对齐;
b. LLM的残差结构造就了其强大的泛化性,使之能够在非文本embedding上泛化;
c. LLM中天然存在模态无关的神经元,是它们建模了模态无关的抽象语义。
a.证据:随着LLM层数的深入,模态gap逐步显著减小
b.证据:LLM的残差结构使得其各层能发挥refine的作用,造就其强大泛化性。
c.证据1:在特定领域微调LLM+projector比起只微调projector更能提高该领域上的性能。
c.证据2:mask掉LLM中少量的特定神经元会显著影响MLLM的感知
[https://arxiv.org/abs/2308.01544](Multimodal Neurons in Pretrained Text-Only Transformers)该文献发现:纯文本中天然存在模态无关神经元;将经过projector的图像特征输入纯文本LLM, 但在LLM的中间层就提前进行解码,所解码出来的词汇内容能够正确反映图像语义。纯文本LMM中的模态无关神经元能够编码模态无关的抽象语义。

浙公网安备 33010602011771号