摘要: 本篇文章利用tensorflow2.0自定义loss函数实现policy gradient策略梯度,自定义loss=-log(prob) *Vt现在训练最高分能到193分,但是还是不稳定,在修改中,欢迎一起探讨文章代码也有参考莫烦大佬的代码action_dim... 阅读全文
posted @ 2019-12-10 10:56 勒勒乐了 阅读(188) 评论(0) 推荐(0)