强化学习基础概念理解

RL原理：
先尝试做出一些行为，得到一个结果，通过判断这个结果是对是错来对之前的行为进行反馈

与supervised learning 的区别主要是：
1. RL没有label指导在什么情况下做出什么样的行为，只有一个作出一系列行为后最终反馈回来的reward signal，并通过这个signal判断这个行为是好是坏。
2. RL的学习结果有延时，可能进行了几步判断之后才刚刚知道之前某步的选择是好是坏。
3. RL的输入总是处于变化中的，而监督学习的输入是固定的（独立分布的）。
4. RL不需要正确的输入/输出对，不需要精确校正优化的行为，它注重于在线规划，在exploration（探索未知）和exploitation（应用现有知识）之间平衡。

RL Agent 包含：
1. policy: agent's behavior function //策略： state 2 action 的映射
       有两种表达： 1）Deterministic policy 确定策略：某state下一定会执行行为a
                   2）Stochastic policy 随机策略：某种state下执行某种行为a的概率

2. value function: how good is each state and/or action //价值函数：预测可能获得的reward的期望，用以衡量当前state的好坏。

3. model: agent's representation of the environment //模型：预测环境下一步会发生什么变化，从而预测agent即将进入的state以及接收到的reward是什么。
                       包括预测下一步state的模型和下一步reward的模型。

（它们并不一定同时存在）

RL是一种试错的学习方式（trial-and-error）。

Exploration的含义：放弃一些已知的reward信息，而去尝试一些新的选择。
Exploitation的含义：根据已知信息最大化reward。

posted @ 2017-07-28 16:39 笙玄羽阅读(332) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

笙玄羽Adrian

强化学习基础概念理解

公告