LSeg

Paper: 《LANGUAGE-DRIVEN SEMANTIC SEGMENTATION》
Code: https://github.com/isl-org/lang-seg

一、大体内容

前面CLIP中提到后续很多工作对其进行了扩展，本文提出了的LSeg 模型，就是借鉴CLIP利用文本编码器和图像编码器，将文本标签和图像像素嵌入到共同空间进行语义图像分割。该模型在零样本和少样本语义分割任务中表现出色，具有高度灵活性，能处理未见类别且在固定标签集任务上与传统方法相当。

大体流程如上图所示，上方沿用了CLIP的文本编码器，输入类别后经过编码器得到对应的类别特征T，下方输入图片经过图像编码器（ViT + Decoder）得到降采样后的图像特征I，再与类别特征T进行点乘得到特征F，由于F的大小相比于原图像进行了下采样，所以最后再经过一个Spatial Regulanization Block模块恢复至原图像大小，并输出每个像素的类别信息，进而实现图像分割。

二、贡献点

提出新模型：提出了 LSeg 模型，将文本标签和图像像素嵌入到共同空间，通过文本编码器和图像编码器的协同工作，实现了基于语言驱动的语义图像分割。
实现零样本学习：LSeg 模型能够在零样本学习的情况下，可以对未见类别进行语义分割。
灵活的标签处理：该模型可以动态处理不同长度、内容和顺序的标签集。用户可以在测试时根据需求任意扩展、收缩或重新排序标签集，模型能够实时调整并生成相应的分割结果，增强了模型的实用性和适应性。
性能优异：在多个少样本语义分割基准测试中，LSeg 模型取得了极具竞争力的结果。在 PASCAL-5i、COCO-20i 和 FSS-1000 等数据集上，LSeg 模型的零样本性能优于现有零样本基线方法，甚至与部分少样本方法相当。在固定标签集的任务上，LSeg 模型与传统语义分割算法的准确性相当，证明了其有效性。

三、细节

3.1 训练

Lseg使用了CLIP的大致框架和预训练参数，只是训练方式上采用的不是对比学习而是采用的有监督学习。

文本编码器：将潜在标签集嵌入连续向量空间，输出向量对输入标签顺序不变且数量可变，文中使用预训练的 CLIP 模型，训练的时候固定权重不动。
图像编码器：基于密集预测 transformers（DPT）架构，为每个输入像素生成嵌入向量。
在训练过程中，采用ViT或ResNet的ImageNet预训练权重来初始化图像编码器的骨干网络，同时对DPT解码器进行随机初始化。在此期间，文本编码器保持冻结状态。将在7个不同的分割数据集上进行训练，使用交叉熵损失函数，只更新图像编码器的权重。