强化学习一些基本概念

  1. 强化学习的三个特征:

    1. 闭环:动作决定环境,又依据环境选择动作。
    2. 非监督。
    3. 当前行动不仅影响短期奖励,也会影响长期奖励。
  2. 强化学习的元素:

    1. policy:\(\pi (a|s)\),policy决定了在特定state下将会选择的action。
    2. reward signal:在选择动作时,环境提供数字信号奖励来通知agent所选择的动作有多好。
    3. value function:reward signal提供的时当下选择的动作带来的奖励,value function提供的是直到结束所能获得的奖励累积。
    4. model:模型提供的是不同状态下环境行为的推断。
  3. 强化学习算法的分类:

    1. tubular:图表类型。这种方法将所有可能的state和action列到表格中,可以找到准确的最优策略(policy)。代表算法有:
      1. DP。DP方法假设存在一个完美的环境模型。
      2. 蒙特卡洛方法(MC)。MC方法不需要关于环境的完整知识假设,它只需要来自环境的状态、动作和奖励的样本序列,可以是真实的,也可以是模拟的。
      3. 短期差异方法(TD)。结合DP和MC方法,不需要环境的完整模型,可以评价来更新评价。其中有著名的Q-learning(off-policy)和SARSA(on-policy)。
    2. approximate methods:估计方法。由于状态空间的大小可能是无穷大的,近似方法的目标是在有限的计算资源下找到一个好的近似解。近似方法的一个可行的方式是从已经见过的state推断未见过的state下的动作。其目的是学的一个带参数的policy在各种state下选择action。
      1. actor-critic
      2. REINFORCE
posted @ 2021-07-14 16:07  风和雨滴  阅读(746)  评论(0编辑  收藏  举报