DAVSOD笔记

DAVSOD笔记

论文链接

主要的两个贡献

  1. 专门为DAVSOD任务构建了一个大规模的DAVSOD数据集(稠密标注的视频显著对象检测)。提供严格真实的人类注视点记录,以及实例级别的标注。
  2. 提出了一个名为SSAV(面向显著性转移的VSOD)的基础模型。它通过使用显著性转移感知convLSTM模块来学习并预测视频显著性,该模块可以显式地模拟人类在动态场景中的视觉注意力转移行为。

DAVSOD数据集

标注

  • 显著性转移标注
  • 场景和对象类别标注
  • 实例/对象级显著物体标注

划分

以4:2:4的比例划分为训练、验证和测试集合。且按照难度分为了35个容易子集、30个正常子集和25个困难子集。

提出的模型

主要包括了如下两个部分:

  1. 金字塔扩张卷积(PDC)模块
  2. 显著性物体转移感知convLSTM(SSLSTM)

其中PDC作为静态特征提取器,它可以把输出的特征增强且保留原始信息。而convLSTM具有显著性转移感知注意机制,它是一个强大的循环模型,不仅可以捕捉时序信息,还可以区分背景中的显著物体以及编码注意力转移信息。

总结

本文对VSOD(视频显著性检测)有了一个较为全面的调研,并提出了一个效果很好的SSAV模型。相比其他的较为先进的VSOD方法该模型仍能取得一个更为理想的结果,且其提出的convLSTM模块能够有效的提高解决问题的性能。

posted @ 2020-09-03 23:54  pipecat  阅读(457)  评论(0)    收藏  举报