摘要: Attention Is All You Need 论文 transformer代码 以下大部分是根据论文理解进行的总结和概括,如有疑问,欢迎交流~ transformer仅仅使用注意力机制,没有使用任何的卷积或者RNN结构。 传统RNN结构的当前隐层状态$h_t$需要当前时刻的输入以及上一时刻的隐 阅读全文
posted @ 2023-04-29 09:47 快乐的拉格朗日 阅读(34) 评论(0) 推荐(0) 编辑