摘要: Actor-Critic算法 在之前的Policy Gradient算法中,其运行结果不够稳定的至少一条原因是:奖励项不够稳定。 下图中,蓝色实现标记的当前和随后的奖励累积和,作为评判𝜋生成的轨迹的好坏度量,即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。 但是,该累积和受到了策略网络𝜋的影响很大。在相 阅读全文
posted @ 2020-05-15 12:25 大浪淘沙、 阅读(188) 评论(0) 推荐(0)