强化学习读书笔记--介绍
第一章 介绍
- 1 强化学习是机器学习中的一种
机器学习大致可以分为监督学习、非监督学习和强化学习。相较于前两者,强化学习更偏重于通过和环境交互从而实现目标的一种学习范式。强化学习所学习的内容本质是一种映射关系,即将所处状态映射到行为。强化学习有两个区别与其他机器学习范式的特征,试错搜索(trial-and-error)和延迟奖励(delay-reward)。
强化学习与监督学习的区别。
监督学习是在带标签的训练集中进行学习,而这些标签是由具有丰富知识的外部监督者所提供的。监督学习的目的是让系统或智能体具有良好的泛化能力,从而对于不在训练集中的情况也能做出正确的反应。但监督学习无法实现从环境交互中完成学习,因为在实际的环境交互中获取对于所有状态的正确行为标签是不现实的。
强化学习则是需要智能体与环境进行交互,从自己的交互经验中完成学习。
强化学习与非监督学习的区别。
非监督学习是在无标签的数据集中寻找数据内暗含的结构信息。
通常人们会将强化学习认为是一种非监督学习,但强化学习与非监督学习有一个本质区别,即强化学习的目标是最大化奖励,而非寻找数据中隐藏的结构。
强化学习与进化算法的区别
进化算法尽可能的在策略空间中搜索最佳策略或足够好的策略,通过大量智能体的试错搜索,往往得到的估计结果也是无偏的。但进化算法只关注结果,无法对决策过程进行分析处理。例如下棋的过程,如果玩家获胜,则其在游戏中所有行为都会得到认可。
强化学习采用试错搜索去搜索策略空间,但会关注整个交互过程,并学习得到获得最大化奖励的关键行为。
强化学习有其独有的特征和挑战,其中一个挑战就是探索(exploration)和挖掘(exploitation)之间的权衡。一方面,智能体需要根据现有的经验去挖掘策略以获得更高的奖励;另一方面,智能体必须去探索环境以便在将来选择更好的行为。强化学习另一个关键特征是它将整个问题纳入考虑。在机器学习中,为使学习研究取得进展,重要的子问题必须被隔离和研究,但它们应该是在完整的、交互式的、目标导向的智能体中发挥明确作用的子问题,即使智能体无法了解环境中的所有细节。
综上而言,强化学习所研究的就是,如何让智能体在不断与环境进行交互的过程中,根据自身的经验去提升自己表现。
1.2 强化学习的基本元素
-
状态(state \(S\))或者环境
状态就是指智能体所处的环境,有些情况下智能体能够获得完整的状态信息,也就是能够掌握周遭环境的所有信息。但大多数情况下,智能体只能观测到与自身相关的环境信息,而无法掌握完整的环境信息。
-
观测(observation)
智能体通过传感器去感知周围环境,所获得的感知数据或者对感知数据预处理后的特征数据就是状态。观测数据可以是图像数据,或是采集得到的数据如温度、压力等等,或是它们的组合。
-
行为(action \(A\))
智能体所能采取的行为。例如在贪吃蛇游戏中,智能体的行为是上下左右的移动。通常而言,所认为的行为是可以与环境进行交互,并产生影响的行为。
-
奖励(reward \(R\))
奖励通常定义了所研究的强化学习问题的目标。智能体每次与环境进行交互,就会获得一个奖励,而智能体的目标就是最大化所获得全部奖励。因此,可以通过奖励信号去定义好的行为(如+1)和坏的行为(如-1)。从而引导智能体逐渐调整策略以获得更高奖励。通常而言奖励具有延迟性和稀疏性。
-
策略(policy \(\pi\))
策略是指智能体的行为方式。通俗的讲,策略是在感知到的环境状态中采取相应行为的映射。策略相当于心理学中的一组刺激-反应关联规则。策略既可以是一张对应表、或者某个简单函数,更多情况下,策略往往是复杂非线性映射关系。策略可以是确定性的,也可以是随机性的。
定义一个策略函数\(\pi(a|s)\rightarrow [0,1]\),即\(\pi(a|s)=P(A=a|S=s)\)。对于随机策略,在给定状态\(s\)的情况下,行为会以概率的方式呈现。例如\(\pi(left|s)=0.2,\pi(right|s)=0.8\).
-
回报(Return \(G\))
回报是指未来的累计奖励。\(t\)时刻的回报不仅取决于当前时刻的奖励,还取决于未来可能获得的累计奖励。
\[G_t = R_t+R_{t+1}+R_{t+2}+\cdots \]例如买福彩,是选择当前时刻损失10块钱,而一个月后可能中500万。还是选择不花任何钱。
-
折扣回报(discounted return)
\(\gamma\):折后回报率(discount rate),均衡短期回报与长期回报之间的平衡
折扣回报:\(G_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots\)
-
行为-价值函数(Q-function)
Q-function依赖于策略\(\pi\),它本质是\(G_t\)的期望,即
\[Q_\pi(s_t,a_t)=E[G_t|S_t=s_t,A_t=a_t] \]可以看出回报\(G_t\)取决于行为序列\(A_t,A_{t+1},A_{t+2},\cdots\)和状态序列\(S_t,S_{t+1},S_{t+2},\cdots\)。
Q-function的意义在于当处于状态\(s_t\)的情况下,根据策略\(\pi\)选择动作\(a_t\)是好还是坏。
选择最佳的策略,可以得到最优Q-function:
\[Q_*(s_t,a_t)=\max_\pi Q_\pi(s_t,a_t) \] -
状态-价值函数(V-function)
V-function是Q-function的期望,即
\[V_\pi(s_t) = E_A[Q(s_t,A)] \]V-function的意义在于衡量当前状态\(s_t\)是好的状态还是坏的状态,比如棋类游戏可以根据V-function判断当前局势。V-function的求解方式是对行为\(A\)求积分,即
\[V_\pi(s_t)=E_A[Q_\pi(s_t,A)]=\sum_{a\in A}\pi(a|s_t)\cdot Q_\pi(s_t,a) \]或
\[V_\pi(s_t)=\int\pi(a|s_t)\cdot Q_\pi(s_t,a)\text{d}a \]1.3 强化学习的发展历史
“强化学习”这个词汇最早源于动物学习(1927年),后由心理学家将强化学习的概念扩展至包括行为的弱化和强化。早期的强化学习主要有两条脉络,这两条脉络各自独立有非常丰富的成果,直到1980s强化学习开始兴盛,将这两条脉络都纳入到现代强化学习之中。一条分支是试错学习,主要是由研究动物学习的科研人员研究发展而来。另一条是基于V-function的最优控制和动态规划。
对强化学习做出贡献的研究人员非常多无法逐一提及,这里列举几个对现代强化学习概念有突出贡献的人员。
Bellman R.E. 所提出的马尔科夫决策过程(Markov Decision Processes MDPs 1957),Bellman对动态规划问题有着突出的贡献。
Harry Klopf对试错学习(trial-and-error learning)这一脉络有着突出贡献,也是由他首次将监督学习与强化学习进行了区分。
Klopf将试错学习与时序差分学习(Temporal-Difference learining TD-learning)进行结合(1972)进一步推动了强化学习的发展,由此强化学习可以解决大型经验数据库的学习方法。Sutton(1978)进一步发展TD-learing方法,由此发展为现代强化学习的第三条脉络。
Ian Witten(1981)最早提出了演员-评论家(actor-critic)架构。
Chris Watkins(1989)将TD-learing与最优控制相结合发展了Q-learning方法。

浙公网安备 33010602011771号