强化学习一些基本概念

强化学习的三个特征：
1. 闭环：动作决定环境，又依据环境选择动作。
2. 非监督。
3. 当前行动不仅影响短期奖励，也会影响长期奖励。
强化学习的元素：
1. policy：\(\pi (a|s)\)，policy决定了在特定state下将会选择的action。
2. reward signal：在选择动作时，环境提供数字信号奖励来通知agent所选择的动作有多好。
3. value function：reward signal提供的时当下选择的动作带来的奖励，value function提供的是直到结束所能获得的奖励累积。
4. model：模型提供的是不同状态下环境行为的推断。
强化学习算法的分类：
1. tubular：图表类型。这种方法将所有可能的state和action列到表格中，可以找到准确的最优策略（policy）。代表算法有：
  1. DP。DP方法假设存在一个完美的环境模型。
  2. 蒙特卡洛方法（MC）。MC方法不需要关于环境的完整知识假设，它只需要来自环境的状态、动作和奖励的样本序列，可以是真实的，也可以是模拟的。
  3. 短期差异方法（TD）。结合DP和MC方法，不需要环境的完整模型，可以评价来更新评价。其中有著名的Q-learning（off-policy）和SARSA（on-policy）。
2. approximate methods：估计方法。由于状态空间的大小可能是无穷大的，近似方法的目标是在有限的计算资源下找到一个好的近似解。近似方法的一个可行的方式是从已经见过的state推断未见过的state下的动作。其目的是学的一个带参数的policy在各种state下选择action。
  1. actor-critic
  2. REINFORCE

posted @ 2021-07-14 16:07 风和雨滴阅读(746) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

风和雨滴

强化学习一些基本概念

公告