摘要: 2021-09-23至2021-10-30关于transformer的学习 Transformer的提出解决了两个问题: (1) 首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量; (2) 其次它不是类似RNN(不能并行)的顺序结构,因此具有更好的并行性,符合现有 阅读全文
posted @ 2021-09-30 20:43 Uriel-w 阅读(612) 评论(0) 推荐(0)