强化学习 - 随笔分类 - MayeZhang

演员-评论员法(Actor-Critic)

摘要：演员-评论员算法( Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法。其中演员(Actor)是指策略函数 \(\pi _\theta\left( {a|s} \right)\)，即学习一个策略来得到尽量高的回报。评论员(Critic)是指值函数 \({V_ 阅读全文

posted @ 2021-01-29 09:34 MayeZhang 阅读(1615) 评论(0) 推荐(0)

策略梯度(Policy Gradient)

摘要：对于DQN来说使用一个网络直接逼近了值函数，最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说，很难全部计算所有的值函数来得到最好的策略，那么直接计算策略的方法就别提出来了。 1 策略梯度理论在Value Based的方法中，我们迭代计算的是值函数，然后根据值函数对策略阅读全文

posted @ 2021-01-29 09:31 MayeZhang 阅读(1906) 评论(0) 推荐(0)

时序差分学习(Temporal-Difference Learning)

摘要：时序差分学习算法结合了动态规划和蒙特卡洛算法特点。一方面像蒙特卡洛算法一样，它不需要知道具体的环境模型，可以直接从经验中学习；另一方面，继承了动态规划算法的自举（bootstrap）方法，可以利用之前学到的估计值来更新值函数，而不用等到一个episode 结束后再更新。 1 时间差分预测(TD Pr 阅读全文

posted @ 2020-08-05 15:54 MayeZhang 阅读(1191) 评论(0) 推荐(0)

蒙特卡罗法 (Monte Carlo Methods)

摘要：在很多应用场景中，马尔可夫决策过程的状态转移概率 \(p(s^ {\prime}|s,a)\) 和奖励函数 \(r\left( {s,a,s^{\prime}} \right)\) 都是未知的。这种情况一般需要智能体与环境交互，然后收集一些样本，然后再根据这些样本来求解最优策略，这种基于采样的学习方阅读全文

posted @ 2020-04-27 16:40 MayeZhang 阅读(1514) 评论(0) 推荐(0)

Loading

@张马也

随笔分类 - 强化学习

公告