摘要: Transformer模型能够学习长范围依赖,但是在语言模型中受到固定长度上下文限制,本文提出了一个新的结构:Transformer-XL。能够学习超过固定长度的依赖,同时保持了时间的连贯性,整体创新包括一个循环机制和一个新的位置编码方法。 存在的问题以及解决的方案: 在语言模型中构建长范围依赖是至 阅读全文
posted @ 2023-01-08 20:34 Uriel-w 阅读(105) 评论(0) 推荐(0) 编辑