摘要: 1.强化学习和语言模型的联系 agent: 语言模型本身 state: prompt(input tokens) action: 选择哪个token作为下一个token(贪婪,top k,top p) reward model:当生成‘好的回复’语言模型应当被奖励,当生成‘差的回复’语言模型不会受到 阅读全文
posted @ 2024-12-10 16:19 AAA建材王师傅 阅读(258) 评论(0) 推荐(1)