这里的翻译好像有点问题,强制教学不是不包括eos,而是不包括最后一个词元(因为解码器接受的输入长度是固定的,这里要插入bos,就要忽视最后一个词元)。代码是这么表示的,英文版也是这么写的
eos
bos
l.sum().backward()可能改成l.mean().backward()更标准一点
l.sum().backward()
l.mean().backward()