摘要: 本文主要介绍(论文发表时间:24.03-25.01)在多模态中使用多个视觉编码器如何进行特征融合操作(之所以用多视觉编码器,主要用途在于:有些视觉编码器可能只能提取到部分信息,就想通过另外一个编码器去捕捉之前编码器所没有捕捉得到的信息;另外一种情况就是:同时输入两类输入图像:1、高分辨率图像;2、低 阅读全文
posted @ 2025-04-27 22:56 Big-Yellow-J 阅读(430) 评论(0) 推荐(1)
levels of contents