会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
点此进入CSDN
你的浏览器不支持播放哦!!nuttertools 您的浏览器不支持该播放!
高颜值的殺生丸
博主擅长python和c++,从事人工智能领域自然语言处理和图像识别方面的工作,欢迎大家来讨论交流
博客园
首页
联系
管理
2024年5月15日
PPO-KL散度近端策略优化玩cartpole游戏
摘要: 其实KL散度在这个游戏里的作用不大,游戏的action比较简单,不像LM里的action是一个很大的向量,可以直接用surr1,最大化surr1,实验测试确实是这样,而且KL的系数不能给太大,否则惩罚力度太大,action model 和ref model产生的action其实分布的差距并不太大 i
阅读全文
posted @ 2024-05-15 22:06 高颜值的殺生丸
阅读(158)
评论(0)
推荐(1)
作者信息
昵称:
刘新宇
园龄:4年6个月
粉丝:1209
QQ:522414928