欢迎

强化学习的一些基本概念

  • 经验回放:这是训练过程中经常用到的一个概念。
    •     是强化学习中一个重要的技巧,可以大幅度提升强化学习的表现。具体操作:把智能体 与环境交互的记录(经验)储存在一个数组里,事后反复 利用这些经验训练智能体,这个数组也叫做经验回放数组(replay buffer)。 
    • 在算法中的应用

       博客学习:https://blog.csdn.net/qq_41903673/article/details/123794671

sunmmary:

1.经验回放有一个专门的py文件;

2.对于 四元组数据(t时刻动作,状态,汇报和 t+1 时刻的状态),把它放在一个队列里面,队列的大小为n,即可存放n条四元组数据。该队列称为replay buffer。如果队列存满了,那么就从中删除最老的一条四元组,n的大小作为一组超参数,有很多实验表明,n的大小对实验结果有影响。n通常都设置的很大,但具体的大小要看具体的应用;

3.从队列中随机抽取一个四元组,然后逐步计算梯度,这里简化了,只抽取一条四元组,但是可以随机抽取多个四元组,然后算出的梯度求平均。

4.好处:打破四元组之间的相关性,又可以重复利用过去的经验。

5.(未学习,看王树森的RL经验回放课程)经验回放的改进:特点是用非均匀抽样代替均匀抽样

posted @ 2022-10-28 17:51  bokeyuan-aa  阅读(157)  评论(0)    收藏  举报