随笔档案「2019年12月10日」：深度强化学习系列tensorflow2.0自定义loss... - 勒勒乐了

摘要：本篇文章利用tensorflow2.0自定义loss函数实现policy gradient策略梯度，自定义loss=-log(prob) *Vt现在训练最高分能到193分，但是还是不稳定，在修改中，欢迎一起探讨文章代码也有参考莫烦大佬的代码action_dim... 阅读全文

posted @ 2019-12-10 10:56 勒勒乐了阅读(188) 评论(0) 推荐(0)

勒勒乐了