Transformer架构

Transformer是基于自注意力的序列到序列模型，与RNN的序列到序列模型不同，Transformer支持并行计算。

序列到序列：应用一

一.Seq2seq的架构

二.Transformer

Transformer架构里面的encoder用的是self-attention机制。

（1）编码器encoder

encoder里的架构如上，block不是一层而是有很多层在block里

（2）decoder解码器

自回归解码器

Masked Self-attention：只考虑a1、a2不考虑a3、a4

只能考虑他左边的东西a1、a2

解码器把编码器的输出先"读"进去，要让解码器产生输出，就得给他一个代表开始的特殊符号<BOS>，这是一个特殊的词元(token)。

解码器的输入是它在前一个时间点的输出，它会把自己的输出作为接下来的输入，因此当解码器产生一个句子的时候，它有可能看到错误的内容。比如机器的器识别成天气的气，那么接下来解码器就会根据错误的识别结果产生输出，造成误差传播(error propagation),一步错步步错，从而可能无法再产生正确的结果。

Transformer解码器的详细结构入下图所示

posted @ 2025-11-22 20:44 Annaprincess 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

luckyyaoyao

Transformer架构

Transformer架构

一.Seq2seq的架构

二.Transformer

公告