强化学习(十四)-PPO和DPPO

一、PPO简介

1、同策略和异策略

同策略:学习的智能体、和环境交互的智能体,是同一个

异策略:学习的智能体、和环境交互的智能体,不是同一个

2、传统的策略梯度算法,在更新策略时,可能出现不稳定,是同策略

3、近端策略优化(Proximal Policy Optimization, PPO)

是Policy Gradient算法的优化,是同策略

通过限制策略更新的幅度,提高训练的稳定性,解决了learning rate不好确定的问题

4、PPO基于Actor Critic,是Open AI在强化学习上的默认算法,业界使用最广的算法

 

二、PPO限制幅度的方式

1、剪切

2、散度

 

三、算法步骤

1、初始化策略网络、价值网络

2、收集数据

3、计算优势函数

4、更新策略网络

5、更新价值网络

 

四、重要性采样

是一种修正期望的方法,使用另外一种分布,来逼近(近似)所求分布

 

五、PPO变种

1、近端策略优化惩罚

2、近端策略优化裁剪

 

六、DPPO

分布式近端策略优化(Distributed Proximal Policy Optimization),在多个节点上并行化数据收集和梯度计算

 

 

 

 

参考:

https://datawhalechina.github.io/easy-rl/#/

 

posted @ 2025-08-20 18:15  牧云文仔  阅读(36)  评论(0)    收藏  举报