强化学习一些基本概念
-
强化学习的三个特征:
- 闭环:动作决定环境,又依据环境选择动作。
- 非监督。
- 当前行动不仅影响短期奖励,也会影响长期奖励。
-
强化学习的元素:
- policy:\(\pi (a|s)\),policy决定了在特定state下将会选择的action。
- reward signal:在选择动作时,环境提供数字信号奖励来通知agent所选择的动作有多好。
- value function:reward signal提供的时当下选择的动作带来的奖励,value function提供的是直到结束所能获得的奖励累积。
- model:模型提供的是不同状态下环境行为的推断。
-
强化学习算法的分类:
- tubular:图表类型。这种方法将所有可能的state和action列到表格中,可以找到准确的最优策略(policy)。代表算法有:
- DP。DP方法假设存在一个完美的环境模型。
- 蒙特卡洛方法(MC)。MC方法不需要关于环境的完整知识假设,它只需要来自环境的状态、动作和奖励的样本序列,可以是真实的,也可以是模拟的。
- 短期差异方法(TD)。结合DP和MC方法,不需要环境的完整模型,可以评价来更新评价。其中有著名的Q-learning(off-policy)和SARSA(on-policy)。
- approximate methods:估计方法。由于状态空间的大小可能是无穷大的,近似方法的目标是在有限的计算资源下找到一个好的近似解。近似方法的一个可行的方式是从已经见过的state推断未见过的state下的动作。其目的是学的一个带参数的policy在各种state下选择action。
- actor-critic
- REINFORCE
- tubular:图表类型。这种方法将所有可能的state和action列到表格中,可以找到准确的最优策略(policy)。代表算法有: