第九节 文字生成 (第四部分 生成任务,大模型)


输入经过encoder得到特征,4个特征当作decoder的输入(打辅助),把标签拿过来做输入得到序列

自回归


区别

  1. 一步错步步错
  2. 只能串行

输出多长 分类/回归(不太行)


输入选到END表示结束

输入:start+label 输出:label+END

测试(推断)



测试时没有label

Beam Search在有些生成的时候,不是单纯的推测,会加入算法


贪婪:每一步只看当前的
beamsearch规定每次要看的步数



  1. 输入
  2. mask
  3. cross
  4. 训练的loss如何计算
  5. 训练和测试的差别
posted @ 2025-02-08 20:39  JYP0222  阅读(33)  评论(0)    收藏  举报