2020 年 5月 15 日随笔档案 - 大浪淘沙、

摘要： Actor-Critic算法在之前的Policy Gradient算法中，其运行结果不够稳定的至少一条原因是：奖励项不够稳定。下图中，蓝色实现标记的当前和随后的奖励累积和，作为评判𝜋生成的轨迹的好坏度量，即通过累积和修正𝑙𝑜𝑔𝑝_𝜃。但是，该累积和受到了策略网络𝜋的影响很大。在相阅读全文

posted @ 2020-05-15 12:25 大浪淘沙、阅读(189) 评论(0) 推荐(0)

大浪淘沙、