Review of Zero-Shot Remote Sensing Image Scene Classification

1. 引言
2. 零样本学习（ZSL）
3. 零样本遥感图像场景分类（ZSRSSC）
4. 数据集、实验结果与分析
5. 讨论
6. 结论

X. Tan et al., "Review of Zero-Shot Remote Sensing Image Scene Classification," in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 17, pp. 11274-11289, 2024, doi: 10.1109/JSTARS.2024.3410995.

1. 引言

遥感图像场景分类重要但面临挑战，深度学习方法需大量标注数据，新场景类别难以准确分类。零样本学习被引入，ZSRSSC通过学习已见场景类别图像与语义信息的对应关系，实现未见场景类别的识别，在环境监测、灾害管理等领域应用前景广阔。

2. 零样本学习（ZSL）

简介：ZSL旨在借助文本描述信息，通过学习已见类别图像来识别未见类别图像，训练阶段学习图像样本到标签的映射关系，测试阶段对未见类别图像分类。
方法：
There are four parts to provide an overview of ZSL methods, namely: early exploration (ZSLbased on attribute learning), cross-modal transfer (CMT) (ZSL based on embedding models), ZSL based on generative networks, and ZSL based on pretrained models.
早期基于属性学习，如DAP和IAP模型；CMT将ZSL问题转化为子空间嵌入问题，包括基于语义空间、公共空间和视觉空间的嵌入方法；基于生成网络的ZSL利用GAN、VAE等生成数据，解决类别不平衡问题；基于预训练模型的ZSL借助大规模预训练模型，通过提示工程和参数微调提升性能。

3. 零样本遥感图像场景分类（ZSRSSC）

简介：ZSRSSC通过学习已见场景类别图像与其语义信息的对应关系，借助未见语义信息识别未见场景类别。
方法：
基于嵌入模型的ZSRSSC：利用嵌入空间将图像转换为低维向量，实现RS图像不同类别的区分。该方法通过学习不同类别之间的相似关系，将新的类别图像嵌入到已有的嵌入空间中。学者从改进空间一致性、缓解映射域转移、提升语义信息丰富度等方向提升性能；
基于生成网络的ZSRSSC：通过生成未见类样本，将零样本分类问题转化为数据缺失问题，再用监督学习分类；
基于预训练模型的ZSRSSC：包括从零构建遥感领域通用预训练模型和微调CLIP模型两个方向。

4. 数据集、实验结果与分析

数据集：介绍了10个常用于RSSC任务的数据集，其中RSSDIVCS是专门用于ZSRSSC任务的数据集。
SIRI-WHU [63], RSD46-WHU [64], [65], WHU-RS19 [66], RSC11 [67], RSSCN7 [68],
UCM21 [69],AID30 [70], NWPU45 [71], PatternNet [72], and PSI-CB256 [73]
实验结果与分析：用RSSDIVCS数据集评估ZSRSSC方法，选取多个基线模型对比。结果表明ZSRSSC方法准确率显著提升，基于嵌入模型的方法在低已见/未见比下表现较好，生成网络的方法在高比例下略优，混合模型和基于预训练模型的RemoteCLIP表现出色。

5. 讨论

现存问题：
遥感图像独特性使提取有用特征变得困难:这是RS图像与自然图像相比具有不同的空间分布的事实。它通常不能捕获RS图像特征的上下文信息。原因是用于提取RS图像特征的模型一般是在大规模的自然图像数据集(如ImageNet，如GoogleNet, ResNet等)上进行预训练的。
CV中常用的辅助语义信息可能不适用于遥感图像: RS领域的类别标签通常无法提供像自然图像那样的语义实体表示。使用自然语言处理模型将类别标签转换为语义向量的方法是有限的。这是因为这些模型是在常识文本上训练的，而从中获得的语义向量往往缺乏RS领域的知识。这个约束限制了ZSRSSC方法的性能。
ZSL方法存在的固有问题，ZSRSSC方法本质上遵循了ZSL的范式，ZSL在方法转移过程中面临的问题并没有从根本上消除。因此，ZSL在CV中的挑战也存在于ZSRSSC方法中，如视觉和语义模态之间结构不一致导致的语义缺口，以及由于训练和测试集的类偏差导致的domain shift。
数据集稀缺。ZSRSSC唯一可用的数据集是RSSDIVCS，它包含70个场景类别，每个类别有800张图像。然而，每个类别的相同数量的场景图像掩盖了ZSRSSC方法在实际应用时可能面临的类别图像数量不平衡的潜在挑战。
解决方法：设计新理论和损失函数，如用不同距离度量函数缓解语义差距和域转移问题。
未来发展方向：
构建高质量语义信息：ZSRSSC中通常使用Word2Vec或BERT模型提取语义向量。这些模型训练的语义空间一般由维基百科语料库组成。然而，遥感图像与自然图像有显著的差异，遥感图像对应的语义信息更加专一于领域。因此，利用领域知识构建高质量的语义信息仍然是未来发展的一个领域。
优化模态特征映射函数：目前大多数ZSRSSC方法采用了ZSL中的CMT思想，并基于嵌入模型实现了ZSRSSC。因此，为了进一步提高该方法的识别精度，有必要对这两种模态的映射函数进行优化，以获得更优的实验结果。
考虑图像类别样本分布：RSSDIVC数据集每个类别的图像数量是平衡的。因此，这些方法没有考虑类别图像数量不平衡的影响。然而，在实际应用场景中，这个问题经常存在，并且严重影响性能。因此，推进few-shot RSSC和ZSRSSC实施机制的整合和增强可能是发展的另一条途径
研究和优化遥感领域零样本大模型：RS中已经有很多基于CLIP模型的大规模预训练模型，利用大量RS预训练数据对CLIP模型进行微调，显著提高了ZSRSSC的性能。然而，平衡方法性能和微调成本仍然是大规模RS未来的优化问题。

6. 结论

本文通过对当前ZSRSSC方法的比较分析，发现基于嵌入模型的研究比基于生成网络的研究更适用于ZSRSSC任务。此外，结合嵌入模型和生成网络的混合模型方法也表现出了较好的性能。值得注意的是，大尺度遥感模型在ZSRSSC任务中也显示出了巨大的潜力。