关于transformer输入和输出细节的问题

********************原文 https://blog.csdn.net/anshiquanshu/article/details/112384896 *****************************

具体的例子如下

样本我/爱/机器/学习和 I/love/machine/learning

1 把我/爱/机器/学习 embedding后输入到encoder中去，最后一层的encoder最终输出的outputs[10,512](假设我们采用的embedding长度为512,而且batch-size为1),此outputs乘以新的参数矩阵，可以作为decoder里每一层的 encoder-decoder用到的k和v

2 将<BOS> 作为decoder的初始输入，将decoder的最大概率输出词A1 和 "I" 做cross-entropy,计算error

3 将<BOS> “I” 作为decoder的输入，将decoder的最大概率输出层A2和“”Love“ 做cross-entropy,计算error

4 将<Bos> “I”“LOVE” 作为decoder的输入，将decoder的最大概率输出词A3 和“”“Machine”做cross-entropy,计算error

5 将<BOS> "I" "LOVE" “Macine”作为decoder的输入，将decode的最大概率输出词A4 和“leanring”做cross-entropy，计算error

6 将<BOS> "I" "Love" "Machine" "Learning"作为decoder的输入，将decode的最大概率输出词A5和终止符<EOS> 做cross-entropy，计算error

以上是挨个单词挨个计算，也可以并行结算。

posted @ 2021-11-06 23:54 大大的海棠湾阅读(724) 评论(0) 收藏举报

刷新页面返回顶部

大大的海棠湾

关于transformer输入和输出细节的问题

公告