关于transformer输入和输出细节的问题
********************原文 https://blog.csdn.net/anshiquanshu/article/details/112384896 *****************************
具体的例子如下
样本 我/爱/机器/学习 和 I/love/machine/learning
1 把 我/爱/机器/学习 embedding后输入到encoder中去,最后一层的encoder最终输出的outputs[10,512](假设我们采用的embedding长度为512,而且batch-size为1),此outputs乘以新的参数矩阵,可以作为decoder里每一层的 encoder-decoder用到的k和v
2 将<BOS> 作为decoder的初始输入,将decoder的最大概率输出词A1 和 "I" 做cross-entropy,计算error
3 将<BOS> “I” 作为decoder的输入,将decoder的最大概率输出层A2和“”Love“ 做cross-entropy,计算error
4 将<Bos> “I”“LOVE” 作为decoder的输入,将decoder的最大概率输出词A3 和“”“Machine”做cross-entropy,计算error
5 将<BOS> "I" "LOVE" “Macine”作为decoder的输入,将decode的最大概率输出词A4 和“leanring”做cross-entropy,计算error
6 将<BOS> "I" "Love" "Machine" "Learning"作为decoder的输入,将decode的最大概率输出词A5和终止符<EOS> 做cross-entropy,计算error
以上是挨个单词挨个计算,也可以并行结算。

浙公网安备 33010602011771号