摘要: 论文《TUPE》复现 原有的注意力计算公式拆分为四部分后发现,中间两部分(word-to-position, position-to-word)对于识别并没有什么明显的作用,并且第一部分(word-to-word)和第四部分论文提出将位置信息与词嵌入信息分离开选择各自的权重矩阵来更新参数,提出的原因 阅读全文
posted @ 2021-10-28 14:25 Uriel-w 阅读(139) 评论(0) 推荐(1)