Loading

随笔分类 -  强化学习

摘要:演员-评论员算法( Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法。其中演员(Actor)是指策略函数 \(\pi _\theta\left( {a|s} \right)\),即学习一个策略来得到尽量高的回报。评论员(Critic)是指值函数 \({V_ 阅读全文
posted @ 2021-01-29 09:34 MayeZhang 阅读(1615) 评论(0) 推荐(0)
摘要:对于DQN来说使用一个网络直接逼近了值函数,最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说,很难全部计算所有的值函数来得到最好的策略,那么直接计算策略的方法就别提出来了。 1 策略梯度理论 在Value Based的方法中,我们迭代计算的是值函数,然后根据值函数对策略 阅读全文
posted @ 2021-01-29 09:31 MayeZhang 阅读(1906) 评论(0) 推荐(0)
摘要:时序差分学习算法结合了动态规划和蒙特卡洛算法特点。一方面像蒙特卡洛算法一样,它不需要知道具体的环境模型,可以直接从经验中学习;另一方面,继承了动态规划算法的自举(bootstrap)方法,可以利用之前学到的估计值来更新值函数,而不用等到一个episode 结束后再更新。 1 时间差分预测(TD Pr 阅读全文
posted @ 2020-08-05 15:54 MayeZhang 阅读(1191) 评论(0) 推荐(0)
摘要:在很多应用场景中,马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互,然后收集一些样本,然后再根据这些样本来求解最优策略,这种基于采样的学习方 阅读全文
posted @ 2020-04-27 16:40 MayeZhang 阅读(1514) 评论(0) 推荐(0)