扩散模型的多模态多任务泛化技术
将扩散模型泛化至多模态多任务场景
一种新颖的损失函数和多模态输入数据聚合方法,在部分测试数据上实现了显著改进。
研究背景
机器学习革命的重要启示在于:在多数据类型或多任务上训练模型,其性能可能优于单一用途模型。例如,多语言训练的模型能学习到一种语言中细微而另一种语言中明显的区别;目标分割训练的模型可能学到有助于深度感知的视觉场景特性。
然而在多任务和多模态训练的优势方面,扩散模型领域仍相对未被充分探索。扩散模型通过逐步去噪被添加噪声的样本进行训练,从而能够从随机噪声输入生成语义连贯的随机化输出。
模型架构
在国际学习表征会议(ICLR)上发表的论文中,提出了一种构建多模态多任务扩散模型的通用方法:
- 输入侧:使用模态特定编码器将数据映射到共享扩散空间
- 输出侧:使用多个任务特定解码器将通用表征映射到特定输出
技术创新
损失函数改进
论文对扩散模型泛化到多模态多任务设置的问题进行了理论分析,并基于此提出了对典型扩散模型损失函数的多项修改:
标准扩散模型中,损失函数包含两个衡量前向过程概率分布与学习到的反向过程概率分布之间距离的项:
- 比较前向过程中两个过程的边际分布
- 比较反向过程的后验表征
修改后的损失函数使这些分布以数据模态为条件,即不同模态数据的分布可以不同。此外还增加了确保反向过程正确恢复数据模态的新项。
多模态融合方法
为了融合用于训练模型的多模态信息,考虑了前向方向的转移分布(决定向给定数据表征添加多少噪声)。通过基于输入模态加权的多模态输入编码加权平均来计算该分布的均值。
实验评估
在四个任务上测试了该方法,其中两个是多任务实验,两个是多模态实验:
多任务实验(视觉领域)
- 联合生成视觉数据和相关分割掩码
- 新颖的多任务预训练任务:扩散生成模型学习填充输入图像的掩码区域
多模态实验
- 联合生成图像及其标签
- 联合生成图像及其在表征空间中的嵌入(如CLIP嵌入)
量化结果
- 在掩码预训练任务中,使用学习感知图像块相似度(LPIPS)作为指标,该方法显著优于仅针对重建任务训练的基线模型
- 在某些情况下,模型的错误率比基线模型低近一个数量级
- 在联合生成图像和标签任务中,性能与最佳基线视觉语言模型相当,精确度略高,召回率略低
未来展望
当前实验分别评估多任务和多模态性能,每个实验仅涉及两种模态或任务。但该模型的优势在于其可泛化性,正在进行的工包括同时评估两种以上模态或任务,以及同步多模态和多任务训练。
研究领域: 计算机视觉、机器学习
技术标签: 扩散建模、多模态交互、生成式AI
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号