打赏
摘要: 1. Motivation 在Transformer-XL中,由于设计了segments,如果仍采用transformer模型中的绝对位置编码的话,将不能区分处不同segments内同样相对位置的词的先后顺序。 比如对于$segment_i$的第k个token,和$segment_j$的第k个tok 阅读全文
posted @ 2019-07-26 19:51 listenviolet 阅读(17237) 评论(2) 推荐(5) 编辑