摘要: 一、Vanilla Transformer(Post-LN Transformer) 1. model architecture Transformer的结构也是一个encoder-decoder结构,其中,encoder和decoder是使用self-attention和全连接层堆叠的结构,如图1 阅读全文
posted @ 2024-09-08 10:22 指间的执着 阅读(190) 评论(0) 推荐(0)