Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记

弄懂基本上的专有术语以后，阅读理解论文的速度就会大大增快，所以，看到每篇论文的生词就记录下来，方便以后查阅和学习！

2.中的术语：object dection（目标检测），region proposal network（RPN 区域推荐网络），

bilinear interpolation（双线性插值），Faster-RCNN，

3.中subject-predicate-object（主语-谓语-宾语），relation annotation（关系采样），softmax（回归模型），Feature Extraction（特征提取），

Visual Feature（视觉特征），weighted concatenation（加权连接），ROI pooling解析,non-maximum suppression (NMS 非极大值抑制)，

intersection over union (IoU 重叠区域)，Optimization(优化)，

confident region(置信区域)，

4.中的术语：JointBox（联合标记框），State of The Arts（时下最优算法），Phrase Detection（短语检测）。

2.3视觉关系检测不仅仅是标记出目标们所在区域，更要描述它们的相互关系。

3.2位置特征不但在检测空间或者借此关系时有用，而且在检测动词时也有用，比如，当谓语是“骑”的时候，主体通常是在目标的上方。特征提取层将目标检测模块和关系预测模块耦合到一起。

3.3训练用的图片使用一个“主谓宾”三元组来标记，其中每个不同的主体或者目标用边界框注释出来。在测试阶段，VTransE输入一张图片，输出一个检测到的目标的集合，并且输出每一对目标的集合，并且输出每一对目标之间的关系的预测评分。损失函数是合成了目标检测损失和关系检测损失的多任务损失函数，这就使得目标和关系能够相互学习。

4.1目前主要有两个大规模关系检测数据集，VRD（视觉关系数据集）和VG。

4.2联合标记框将主体和目标当做一个联合边界框进行谓词预测，VTransE则对一对主体和目标进行预测。为了较为公平的比较，我们两个方法都只使用边界框的ROI pooling视觉特征。结果表明，大部分谓词VTransE都能预测正确，而联合框方法在某些确定的模式下很可能产生偏差。比如，联合框预测“park on”这个动作仅局限于汽车，而VTransE方法则可以将这个动作扩展到飞机和公共汽车（问题，VTransE具体是怎么样工作的，为什么能扩展到飞机和公共汽车）。VTransE则可以则表现地更理解“beneath”的含义。
4.3VTransE端到端的训练方法有利于目标检测。因为特征提取层采用了知识转换的方法，是的关系预测产生的错误能够反向传播到目标检测模块。

4.4端到端的VTransE比2阶段的VTransE-2stage在整个数据集上表现得都要好。结果证明了目标和关系相互学习的有效性。

posted @ 2018-06-04 20:21 林木子阅读(752) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

林木子

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记

公告