摘要: 本篇带来XL-Net和它的基础结构Transformer-XL。在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题。接下来我们详细的介绍Tra 阅读全文
posted @ 2019-09-29 16:18 微笑sun 阅读(4277) 评论(3) 推荐(0) 编辑