DAVSOD笔记
DAVSOD笔记
主要的两个贡献
- 专门为DAVSOD任务构建了一个大规模的DAVSOD数据集(稠密标注的视频显著对象检测)。提供严格真实的人类注视点记录,以及实例级别的标注。
- 提出了一个名为SSAV(面向显著性转移的VSOD)的基础模型。它通过使用显著性转移感知convLSTM模块来学习并预测视频显著性,该模块可以显式地模拟人类在动态场景中的视觉注意力转移行为。
DAVSOD数据集
标注
- 显著性转移标注
- 场景和对象类别标注
- 实例/对象级显著物体标注
划分
以4:2:4的比例划分为训练、验证和测试集合。且按照难度分为了35个容易子集、30个正常子集和25个困难子集。
提出的模型
主要包括了如下两个部分:
- 金字塔扩张卷积(PDC)模块
- 显著性物体转移感知convLSTM(SSLSTM)
其中PDC作为静态特征提取器,它可以把输出的特征增强且保留原始信息。而convLSTM具有显著性转移感知注意机制,它是一个强大的循环模型,不仅可以捕捉时序信息,还可以区分背景中的显著物体以及编码注意力转移信息。
总结
本文对VSOD(视频显著性检测)有了一个较为全面的调研,并提出了一个效果很好的SSAV模型。相比其他的较为先进的VSOD方法该模型仍能取得一个更为理想的结果,且其提出的convLSTM模块能够有效的提高解决问题的性能。

浙公网安备 33010602011771号