第九节 文字生成 (第四部分 生成任务,大模型)

输入经过encoder得到特征,4个特征当作decoder的输入(打辅助),把标签拿过来做输入得到序列
自回归


区别![]()
- 一步错步步错
- 只能串行
![]()
输出多长 分类/回归(不太行)

输入选到END表示结束

输入:start+label 输出:label+END

测试(推断)


测试时没有label
Beam Search在有些生成的时候,不是单纯的推测,会加入算法

贪婪:每一步只看当前的
beamsearch规定每次要看的步数




- 输入
- mask
- cross
![]()
- 训练的loss如何计算
![]()
- 训练和测试的差别





浙公网安备 33010602011771号