点此进入CSDN

点此添加QQ好友 加载失败时会显示




你的浏览器不支持播放哦!!nuttertools 您的浏览器不支持该播放!
摘要: 其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能给太大,否则惩罚力度太大,action model 和ref model产生的action其实分布的差距并不太大 i 阅读全文
posted @ 2024-05-15 22:06 高颜值的殺生丸 阅读(158) 评论(0) 推荐(1)

作者信息

昵称:

刘新宇

园龄:4年6个月


粉丝:1209


QQ:522414928