摘要: 摘要 基于Transformer的模型由于自注意力操作不能处理长序列,自注意力操作是序列长度的二次方。为了定位这个限制,我们提出一种Longformer的方法,它使用的注意力机制能够随着序列长度线性增长,使得能够很容易的处理具有数千或者更长token的文档。Longformer的注意力机制可以使用任 阅读全文
posted @ 2021-01-11 20:49 justDoIT& 阅读(1357) 评论(0) 推荐(0) 编辑