CVPR2025 | 西北工业大学联合华为、腾讯发表基于生成式空间增强的图像分割模型!
前言 本文提出了GleSAM,它利用生成式潜在空间增强来提高对低质量图像的鲁棒性,从而实现对各种图像质量的泛化。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
本文转载自群函数
仅用于学术分享,若侵权请联系删除
招聘高光谱图像、语义分割、diffusion等方向论文指导老师
01 工作速览
2025年4月4日,西北工业大学联合华为、腾讯等单位在CVPR 2025 在线发表题为“Segment Any-Quality Images with Generative Latent Space Enhancement”的研究论文。
具体来说,将潜在扩散的概念应用于基于SAM的分割框架,并在SAM的潜在空间中执行生成扩散过程,以重建高质量的表示,从而改善分割效果。此外,引入了两种技术来提高预训练扩散模型与分割框架之间的兼容性。该方法可以应用于预训练的SAM和SAM2,只需要极少的额外可学习参数,从而实现高效的优化。还构建了具有更多退化类型和水平的LQSeg数据集,用于训练和评估模型。大量的实验表明,GleSAM在复杂退化上的分割鲁棒性显著提高,同时保持了对清晰图像的泛化能力。此外,GleSAM在未见过的退化上也表现出色,突显了方法和数据集的多功能性。
02 匠心独运
由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。
在多种场景中实现准确的目标检测和分割是各种高级视觉应用(例如机器人技术和自动驾驶)的基础任务。最近开发的“分割任何事物模型”(SAMs),包括SAM和SAM2,作为基础模型,因其出色的零样本分割能力而在社区内产生了重大影响。尽管取得了成功,但SAMs在常见的低质量图像上表现不佳,例如那些受到噪声、模糊和压缩伪影退化的图像,这些图像在现实场景中经常遇到。以前的方法采用基于蒸馏的一致性学习来增强对退化的鲁棒性特征。然而,它们仍然面临着处理严重退化的低质量图像的挑战。随着退化变得更加复杂(例如,结合各种类型的退化或增加退化的程度),现有的SAMs在准确分割边缘和完成目标区域方面存在困难,导致分割不正确。作者分析认为这是由于退化图像的特征表示有限。可视化显示,来自严重退化图像的SAM潜在特征包含过多的噪声,破坏了原始表示,进而影响了解码器的预测。此外,低质量特征和高质量特征之间的巨大差距使以前工作中的一致性学习复杂化,阻碍了性能的提高。因此,实现高质量的潜在特征表示以及在不同图像质量(尤其是退化图像)上的鲁棒分割仍然具有挑战性。
图1. 在未见过的数据集上对具有不同退化水平的低质量图像的定性结果比较。 为了生成具有不同退化水平的图像,逐步向图像中添加高斯噪声、重采样噪声以及更严重的高斯噪声。结果表明,基线SAM[29]对退化的鲁棒性有限。尽管RobustSAM[8]对较简单的退化仍有一定韧性,但在更复杂和不熟悉的退化面前则显得力不从心。相比之下,作者的方法在不同质量的图像上始终展现出强大的鲁棒性。
最近开发的生成式扩散模型(DM),特别是大规模预训练的潜在扩散模型(LDM),已经展示了强大的内容生成能力。在互联网规模的数据上进行训练,LDM在潜在空间中进行扩散和去噪,拥有强大的表示先验,可以很好地利用这些先验来增强分割模型的潜在表示。这启发我们充分利用预训练扩散模型的生成能力,并将其整合到SAMs的潜在空间中,以增强低质量特征,从而促进低质量图像中的准确分割。
图2. 潜在特征的可视化:(a) 低质量(LQ)图像,(b) 从低质量图像中提取的SAM的潜在特征,这些特征包含过多的噪声,破坏了原始表示,(c) 对应清晰图像的高质量(HQ)特征,这些特征比低质量图像的特征更为显著,(d) 通过GleSAM增强后的表示。
为此,作者提出了GleSAM,它通过生成式扩散在SAM的潜在空间中重建高质量特征,从而实现对任何质量图像的准确分割。从低质量特征开始,通过单步去噪生成高质量表示。为了整合LDM的生成知识,将预训练的LDM的U-Net与可学习的LoRA层结合,以适应分割特定特征。此外,为了提高预训练扩散模型和分割框架之间的兼容性,引入了两种有效技术:特征分布对齐(FDA)和通道复制与扩展(CRE)。这些技术弥合了模型之间的特征分布和结构对齐差距。基于SAM和SAM2构建,GleSAM利用了预训练分割和扩散模型的泛化能力,并且只添加了少量可学习参数,可以在四个GPU上高效训练30小时。
在数据方面,基于现有数据集构建了LQSeg,以在低质量图像上训练和评估分割模型。LQSeg比以前的方法包含了更多样化的退化类型,结合基本退化模型(例如,噪声和模糊)来模拟复杂和现实世界的噪声。还引入了三个退化水平,以便进行更全面的评估。希望LQSeg能够激发更鲁棒分割模型的开发,并为未来的研究做出贡献。
图3. 给定一张输入图像,GleSAM通过图像编码、生成式潜在空间增强以及掩码解码来实现准确的分割。在训练过程中,高质量-低质量(HQ-LQ)图像对被输入到冻结的图像编码器中,以提取对应的高质量和低质量潜在特征。随后,通过高效微调一个带有LoRA的生成式去噪U-Net,在SAM的潜在空间中重建高质量表示。之后,解码器通过分割损失进行微调,以对齐增强后的潜在表示。基于SAMs构建的GleSAM继承了基于提示的分割功能,并且在任何质量的图像上都表现出色。
03 卓越性能


图4. 不同方法的IoU和图像质量密度分布图,包括SAM、GleSAM、SAM2和GleSAM2。 图像质量是使用OpenCV中的拉普拉斯算子计算的。红色虚线框突出了作者的方法与SAM相比在低质量图像上表现出改进的分割性能的区域。
参考:https://arxiv.org/pdf/2503.12507
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
其它文章
LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT
ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出
ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香
1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4
SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!
GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星
CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!
浙公网安备 33010602011771号