03 2022 档案

摘要:1.摘要 该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了 一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的 一致性,使得所生成描述更加准确 阅读全文
posted @ 2022-03-30 21:29 EkkoMay 阅读(795) 评论(0) 推荐(0)
摘要:1. Abstarct目前大多数的image caption的模型都严重地依赖成对的图片—语句数据集,但获得他们代价较高,因此在本篇论文中,作者第一次尝试了无监督模型。该模型需要一个图像集、一个语料库和一个视觉检测器。同时,因为现有的语料库大多用于语言研究,与图片相关性不大,因此作者爬取了一个范围大 阅读全文
posted @ 2022-03-27 10:35 EkkoMay 阅读(135) 评论(0) 推荐(0)
摘要:当前方法存在的问题 首先,注意模型大多是单词级的局部注意,缺乏对图像整体的掌控。其次,模型在训练和测试之间存在“暴露偏差”。最后,存在训练损失和评估指标不匹配的问题。模型在训练时通常使用交叉熵损失,而在测试时一般使用BLEU、METEOR、ROUGE-L、CLDEr这样的指标来评估生成语句的质量。 阅读全文
posted @ 2022-03-27 10:23 EkkoMay 阅读(135) 评论(0) 推荐(0)
摘要:1、解决问题 使用强化学习训练模型,可能会使模型与奖励函数过拟合,造成奖励黑客行为(reward hacking),也就是说虽然奖励函数的得分提高了但是模型的实际性能是降低的,这是因为奖励函数不能非常正确的表达出生成描述的质量,一些错误的表示可能反而有很高的奖励,尤其是对描述的命题内容和独特性的奖励 阅读全文
posted @ 2022-03-24 09:24 EkkoMay 阅读(121) 评论(0) 推荐(0)
摘要:引言 本文主要是在image caption 任务中引入了场景图模型。利用图卷积网络(GCN),将图中检测得到的object和其自身的attribute,以及其他object之间的关系融合在一起作为网络的输入。另外,作者受到利用working memory保存动态知识库的启发,提出了一个共享字典的结 阅读全文
posted @ 2022-03-22 16:28 EkkoMay 阅读(152) 评论(0) 推荐(0)