随笔分类 - 强化学习
摘要:演员-评论员算法( Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法。其中演员(Actor)是指策略函数 \(\pi _\theta\left( {a|s} \right)\),即学习一个策略来得到尽量高的回报。评论员(Critic)是指值函数 \({V_
阅读全文
摘要:对于DQN来说使用一个网络直接逼近了值函数,最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说,很难全部计算所有的值函数来得到最好的策略,那么直接计算策略的方法就别提出来了。 1 策略梯度理论 在Value Based的方法中,我们迭代计算的是值函数,然后根据值函数对策略
阅读全文
摘要:时序差分学习算法结合了动态规划和蒙特卡洛算法特点。一方面像蒙特卡洛算法一样,它不需要知道具体的环境模型,可以直接从经验中学习;另一方面,继承了动态规划算法的自举(bootstrap)方法,可以利用之前学到的估计值来更新值函数,而不用等到一个episode 结束后再更新。 1 时间差分预测(TD Pr
阅读全文
摘要:在很多应用场景中,马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互,然后收集一些样本,然后再根据这些样本来求解最优策略,这种基于采样的学习方
阅读全文

浙公网安备 33010602011771号