摘要: Transformer架构 Transformer是基于自注意力的序列到序列模型,与RNN的序列到序列模型不同,Transformer支持并行计算。 序列到序列:应用一 一.Seq2seq的架构 二.Transformer Transformer架构里面的encoder用的是self-attenti 阅读全文
posted @ 2025-11-22 20:45 Annaprincess 阅读(15) 评论(0) 推荐(0)