强化学习的一些基本概念

经验回放：这是训练过程中经常用到的一个概念。
- 　　　　是强化学习中一个重要的技巧，可以大幅度提升强化学习的表现。具体操作：把智能体与环境交互的记录（经验）储存在一个数组里，事后反复利用这些经验训练智能体，这个数组也叫做经验回放数组（replay buffer)。　
- 在算法中的应用

　　　　　　　博客学习：https://blog.csdn.net/qq_41903673/article/details/123794671

sunmmary:

1.经验回放有一个专门的py文件；

2.对于四元组数据（t时刻动作，状态，汇报和 t+1 时刻的状态），把它放在一个队列里面，队列的大小为n，即可存放n条四元组数据。该队列称为replay buffer。如果队列存满了，那么就从中删除最老的一条四元组，n的大小作为一组超参数，有很多实验表明，n的大小对实验结果有影响。n通常都设置的很大，但具体的大小要看具体的应用；

3.从队列中随机抽取一个四元组，然后逐步计算梯度，这里简化了，只抽取一条四元组，但是可以随机抽取多个四元组，然后算出的梯度求平均。

4.好处：打破四元组之间的相关性，又可以重复利用过去的经验。

5.（未学习，看王树森的RL经验回放课程）经验回放的改进：特点是用非均匀抽样代替均匀抽样

posted @ 2022-10-28 17:51 bokeyuan-aa 阅读(168) 评论(0) 收藏举报

刷新页面返回顶部

bokeyuan-aa

强化学习的一些基本概念

公告