X. Tan et al., "Review of Zero-Shot Remote Sensing Image Scene Classification," in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 17, pp. 11274-11289, 2024, doi: 10.1109/JSTARS.2024.3410995.
1. 引言
遥感图像场景分类重要但面临挑战,深度学习方法需大量标注数据,新场景类别难以准确分类。零样本学习被引入,ZSRSSC通过学习已见场景类别图像与语义信息的对应关系,实现未见场景类别的识别,在环境监测、灾害管理等领域应用前景广阔。
2. 零样本学习(ZSL)
- 简介:ZSL旨在借助文本描述信息,通过学习已见类别图像来识别未见类别图像,训练阶段学习图像样本到标签的映射关系,测试阶段对未见类别图像分类。
- 方法:
There are four parts to provide an overview of ZSL methods, namely: early exploration (ZSLbased on attribute learning), cross-modal transfer (CMT) (ZSL based on embedding models), ZSL based on generative networks, and ZSL based on pretrained models.
早期基于属性学习,如DAP和IAP模型;CMT将ZSL问题转化为子空间嵌入问题,包括基于语义空间、公共空间和视觉空间的嵌入方法;基于生成网络的ZSL利用GAN、VAE等生成数据,解决类别不平衡问题;基于预训练模型的ZSL借助大规模预训练模型,通过提示工程和参数微调提升性能。
3. 零样本遥感图像场景分类(ZSRSSC)
- 简介:ZSRSSC通过学习已见场景类别图像与其语义信息的对应关系,借助未见语义信息识别未见场景类别。
- 方法:
基于嵌入模型的ZSRSSC:利用嵌入空间将图像转换为低维向量,实现RS图像不同类别的区分。该方法通过学习不同类别之间的相似关系,将新的类别图像嵌入到已有的嵌入空间中。学者从改进空间一致性、缓解映射域转移、提升语义信息丰富度等方向提升性能;
基于生成网络的ZSRSSC:通过生成未见类样本,将零样本分类问题转化为数据缺失问题,再用监督学习分类;
基于预训练模型的ZSRSSC:包括从零构建遥感领域通用预训练模型和微调CLIP模型两个方向。
4. 数据集、实验结果与分析
- 数据集:介绍了10个常用于RSSC任务的数据集 ,其中RSSDIVCS是专门用于ZSRSSC任务的数据集。
SIRI-WHU [63], RSD46-WHU [64], [65], WHU-RS19 [66], RSC11 [67], RSSCN7 [68],
UCM21 [69],AID30 [70], NWPU45 [71], PatternNet [72], and PSI-CB256 [73] - 实验结果与分析:用RSSDIVCS数据集评估ZSRSSC方法,选取多个基线模型对比。结果表明ZSRSSC方法准确率显著提升,基于嵌入模型的方法在低 已见/未见比下表现较好,生成网络的方法在高比例下略优,混合模型和基于预训练模型的RemoteCLIP表现出色。
5. 讨论
- 现存问题:
遥感图像独特性使提取有用特征变得困难:这是RS图像与自然图像相比具有不同的空间分布的事实。它通常不能捕获RS图像特征的上下文信息。原因是用于提取RS图像特征的模型一般是在大规模的自然图像数据集(如ImageNet,如GoogleNet, ResNet等)上进行预训练的。
CV中常用的辅助语义信息可能不适用于遥感图像: RS领域的类别标签通常无法提供像自然图像那样的语义实体表示。使用自然语言处理模型将类别标签转换为语义向量的方法是有限的。这是因为这些模型是在常识文本上训练的,而从中获得的语义向量往往缺乏RS领域的知识。这个约束限制了ZSRSSC方法的性能。
ZSL方法存在的固有问题,ZSRSSC方法本质上遵循了ZSL的范式,ZSL在方法转移过程中面临的问题并没有从根本上消除。因此,ZSL在CV中的挑战也存在于ZSRSSC方法中,如视觉和语义模态之间结构不一致导致的语义缺口,以及由于训练和测试集的类偏差导致的domain shift。
数据集稀缺。ZSRSSC唯一可用的数据集是RSSDIVCS,它包含70个场景类别,每个类别有800张图像。然而,每个类别的相同数量的场景图像掩盖了ZSRSSC方法在实际应用时可能面临的类别图像数量不平衡的潜在挑战。 - 解决方法:设计新理论和损失函数,如用不同距离度量函数缓解语义差距和域转移问题。
- 未来发展方向:
构建高质量语义信息:ZSRSSC中通常使用Word2Vec或BERT模型提取语义向量。这些模型训练的语义空间一般由维基百科语料库组成。然而,遥感图像与自然图像有显著的差异,遥感图像对应的语义信息更加专一于领域。因此,利用领域知识构建高质量的语义信息仍然是未来发展的一个领域。
优化模态特征映射函数:目前大多数ZSRSSC方法采用了ZSL中的CMT思想,并基于嵌入模型实现了ZSRSSC。因此,为了进一步提高该方法的识别精度,有必要对这两种模态的映射函数进行优化,以获得更优的实验结果。
考虑图像类别样本分布:RSSDIVC数据集每个类别的图像数量是平衡的。因此,这些方法没有考虑类别图像数量不平衡的影响。然而,在实际应用场景中,这个问题经常存在,并且严重影响性能。因此,推进few-shot RSSC和ZSRSSC实施机制的整合和增强可能是发展的另一条途径
研究和优化遥感领域零样本大模型:RS中已经有很多基于CLIP模型的大规模预训练模型,利用大量RS预训练数据对CLIP模型进行微调,显著提高了ZSRSSC的性能。然而,平衡方法性能和微调成本仍然是大规模RS未来的优化问题。
6. 结论
本文通过对当前ZSRSSC方法的比较分析,发现基于嵌入模型的研究比基于生成网络的研究更适用于ZSRSSC任务。此外,结合嵌入模型和生成网络的混合模型方法也表现出了较好的性能。值得注意的是,大尺度遥感模型在ZSRSSC任务中也显示出了巨大的潜力。
浙公网安备 33010602011771号