基于策略梯度的强化学习论文调研

RL-Adventure: Policy Gradients

2、Soft Actor-Critic（SAC）(旧版)，(新版)

　　原始论文中伪代码有状态价值函数V：

　　后续为什么没有了 $V$ 函数？在初版的SAC中，作者表示同时维持两个值函数，可以使训练更加稳定，不过在第二版中，作者引入了自动调整温度系数 $\alpha$ 的方法，使得SAC更加稳定，于是就只保留了 $Q$ 函数。

4、Trust Region Policy Optimization（TRPO）

posted on 2020-10-18 20:09 穷酸秀才大草包阅读(186) 评论(0) 编辑收藏举报

刷新页面返回顶部