摘要: Transformer结构 Transformer模型中采用了 encoer-decoder 架构 encoder,包含self-attention层和前馈神经网络,self-attention能帮助当前节点不仅仅只关注当前的词,从而能获取到上下文的语义。 decoder在这两层中间还有一层atte 阅读全文
posted @ 2021-12-29 20:20 忘川酒 阅读(275) 评论(0) 推荐(0) 编辑