关于transformer输入和输出细节的问题

********************原文   https://blog.csdn.net/anshiquanshu/article/details/112384896   *****************************

具体的例子如下

样本   我/爱/机器/学习   和   I/love/machine/learning

1 把 我/爱/机器/学习 embedding后输入到encoder中去,最后一层的encoder最终输出的outputs[10,512](假设我们采用的embedding长度为512,而且batch-size为1),此outputs乘以新的参数矩阵,可以作为decoder里每一层的  encoder-decoder用到的k和v

2  将<BOS> 作为decoder的初始输入,将decoder的最大概率输出词A1 和 "I" 做cross-entropy,计算error

3  将<BOS>  “I” 作为decoder的输入,将decoder的最大概率输出层A2和“”Love“ 做cross-entropy,计算error

4  将<Bos> “I”“LOVE” 作为decoder的输入,将decoder的最大概率输出词A3 和“”“Machine”做cross-entropy,计算error

5  将<BOS> "I"  "LOVE" “Macine”作为decoder的输入,将decode的最大概率输出词A4 和“leanring”做cross-entropy,计算error

6 将<BOS> "I" "Love" "Machine" "Learning"作为decoder的输入,将decode的最大概率输出词A5和终止符<EOS> 做cross-entropy,计算error

 

以上是挨个单词挨个计算,也可以并行结算。

 

posted @ 2021-11-06 23:54  大大的海棠湾  阅读(724)  评论(0)    收藏  举报