2024 年 12月 10 日随笔档案 - AAA建材王师傅

2024年12月10日

摘要： 1.强化学习和语言模型的联系 agent: 语言模型本身 state: prompt(input tokens) action: 选择哪个token作为下一个token（贪婪，top k,top p） reward model：当生成‘好的回复’语言模型应当被奖励，当生成‘差的回复’语言模型不会受到阅读全文

posted @ 2024-12-10 16:19 AAA建材王师傅阅读(258) 评论(0) 推荐(1)

zz-w

公告