会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
勒勒乐了
让自己每天都有事情
博客园
首页
新随笔
联系
订阅
管理
2019年12月10日
深度强化学习系列tensorflow2.0自定义loss函数实现policy gradient策略梯度
摘要: 本篇文章利用tensorflow2.0自定义loss函数实现policy gradient策略梯度,自定义loss=-log(prob) *Vt现在训练最高分能到193分,但是还是不稳定,在修改中,欢迎一起探讨文章代码也有参考莫烦大佬的代码action_dim...
阅读全文
posted @ 2019-12-10 10:56 勒勒乐了
阅读(188)
评论(0)
推荐(0)
公告