Attention Is All You Need论文报告

论文标题:Attention Is All You Need

作者:Aravind Srinivas

作者单位/个人主页:https://dblp.uni-trier.de/pid/26/9012.html

论文档次:人工智能领域的A类会议,机器学习领域顶级会议——NIPS收录,CoRR abs收录

论文引用量:1173

1.摘要

主流的序列模型基于复杂的递归或卷积神经网络,其中包含一个编码器和解码器,这些模型中性能最好的模型利用注意力机制连接编码器和解码器。作者提出了一种新的网络结构Transformer,该网络结果摒弃了循环和卷积。解决了以为模型学习特征丢失和静态特征的问题。该模型在WMT2014英法翻译比赛中取得最佳成绩。

2.问题是什么?

摒弃了以往序列模型中出现的循环和卷积,构建一套更加简洁的模型。解决了以往主流模型的特征丢失和静态特征学习的问题。

3. 项目背景

主流的序列模型将注意力机制与循环神经网络(例如LSTM)结合使用

4. 解决方案

作者提出了Transformer模型,即一种完全基于注意力机制的第一序列转换模型,用多头自注意力机制取代了编码器-解码器体系结构中最常用的循环层,这样既摒弃了复杂的循环、卷积神经网络,又能解决特征丢失和静态特征的问题。

5. 作者的核心思想、创新点

多头注意力机制取代了编码器-解码器体系结构中最常用的循环层

6.实验及结论

在WMT 2014英德翻译任务中,Transformer取得了最高的BLUE评分。且当时比赛的Transformer规模是最小的,后续作者所在团队扩建了Transformer的规模并对比赛语料进行了验证,取得了更高的BLUE成绩。此外,由于摒弃了循环神经网络结构,Transformer模型的收敛速度远高于以往的基于循环神经网络的序列模型,且Transformer模型的部署较为简便。

7.对你的启发

Transformer模型横空出世直接对标基于循环神经网络的序列模型,剑锋直指LSTM。在序列模型上,Transformer几乎是业界最顶尖的模型,并广泛应用于翻译任务中。此外,最为重要的是,Transformer模型中多头注意力机制的出现解决了特征学习中的棘手问题,这给后续很多的神经网络模型带来的启发,例如著名的Bert就是基于Transformer模型的Encode端。目前,Transformer模型的扩展主要集中体现在语义模型上面,个人阅读过一些文献在融合Transformer之后都取得了较好的效果。因此,这篇论文启发我是否考虑在自己的研究方向上利用Transformer的多头注意力机制加强模型的特征学习能力,从而取得更好的效果。目前,个人也正在考虑这个问题并尝试实现。

 

posted @ 2021-02-06 20:19  丸子粥  阅读(76)  评论(0编辑  收藏  举报