DRL-基础概念

强化学习基础概念技术指南

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,它研究智能体(agent)如何在环境中通过试错学习来最大化累积奖励。本指南将介绍强化学习中的几个核心概念。

1. 马尔可夫决策过程(Markov Decision Process, MDP)

马尔可夫决策过程是强化学习问题的数学框架,用于描述完全可观测环境中的序贯决策问题。MDP为智能体与环境的交互提供了形式化的建模方法。在MDP框架下,环境被建模为一系列状态,智能体通过执行动作与环境交互,并从环境中获得奖励信号作为反馈。

1.1 马尔可夫性

马尔可夫性(Markov Property)是指系统的下一个状态只依赖于当前状态,而与之前的状态无关。这一特性简化了复杂系统的建模,因为它意味着系统的历史信息全部包含在当前状态中。数学表达为:

\[P(S_{t+1}|S_t) = P(S_{t+1}|S_1, S_2, ..., S_t) \]

这意味着,只要给定当前状态,历史状态对未来状态的预测没有额外帮助。在强化学习中,这要求状态表示必须包含做出决策所需的全部信息。

1.2 马尔可夫过程

马尔可夫过程(Markov Process)或称马尔可夫链(Markov Chain),是一个满足马尔可夫性的随机过程,由状态集合和状态转移概率组成。它是一个没有决策者干预的随机系统模型。

1.3 马尔可夫奖励过程

马尔可夫奖励过程(Markov Reward Process, MRP)是在马尔可夫过程的基础上增加了奖励函数和折扣因子,形成四元组 \(\langle S, P, R, \gamma \rangle\)

  • S: 状态集合(State Space)
  • P: 状态转移概率矩阵,\(P(s'|s)\) 表示从状态 \(s\) 转移到状态 \(s'\) 的概率
  • R: 奖励函数,\(R(s)\) 表示在状态 \(s\) 下获得的即时奖励期望
  • γ: 折扣因子(Discount Factor),\(γ \in [0,1]\)

1.4 马尔可夫决策过程核心要素详解

马尔可夫决策过程由四个核心要素组成,这些要素共同定义了强化学习问题的结构:

状态(State, S)

状态是环境的描述,是对世界的快照。在MDP中,状态需要满足马尔可夫性,即包含了做出最优决策所需的全部信息。状态集合 \(\mathcal{S}\) 包含所有可能的状态。在时间 \(t\),环境处于状态 \(s_t \in \mathcal{S}\)

状态可以是:

  • 离散的(如棋盘位置)
  • 连续的(如机器人关节角度)
  • 高维的(如图像像素)

在强化学习中,一个好的状态表示应当包含做出决策所需的全部信息。

动作(Action, A)

动作是智能体可以执行的操作集合。动作集合 \(\mathcal{A}\) 包含所有可能的动作。在时间 \(t\),智能体选择动作 \(a_t \in \mathcal{A}(s_t)\),其中 \(\mathcal{A}(s_t)\) 表示在状态 \(s_t\) 下可执行的动作集合。

动作可以是:

  • 离散的(如上下左右移动)
  • 连续的(如施加在机器人关节上的力矩)
  • 多维的(如同时控制多个执行器)

奖励(Reward, R)

奖励是环境对智能体动作的反馈信号,表示在某个状态下执行某个动作的好坏程度。奖励函数 \(R\) 定义了在状态 \(s\) 执行动作 \(a\)(可能转移到状态 \(s'\))时获得的即时奖励。

奖励函数可以表示为:

  • \(R(s)\):只依赖于状态
  • \(R(s,a)\):依赖于状态和动作
  • \(R(s,a,s')\):依赖于状态、动作和下一个状态

奖励信号是强化学习的目标导向,智能体的目标是最大化长期累积奖励。

状态转移(State Transition, P)

状态转移概率函数 \(P\) 描述了环境的动态特性,定义了在状态 \(s\) 执行动作 \(a\) 后转移到状态 \(s'\) 的概率。形式化表示为:

\[P(s'|s,a) = Pr(S_{t+1}=s'|S_t=s,A_t=a) \]

状态转移概率具有概率性质:

  • \(P(s'|s,a) \geq 0\)
  • \(\sum_{s' \in \mathcal{S}} P(s'|s,a) = 1\)

状态转移可以是:

  • 确定性的:给定状态和动作,下一个状态是确定的
  • 随机性的:给定状态和动作,下一个状态服从某种概率分布

1.5 马尔可夫决策过程完整定义

马尔可夫决策过程是马尔可夫奖励过程的扩展,增加了动作集合,形成了强化学习问题的标准数学形式化表示。一个MDP可以定义为五元组 \(\langle S, A, P, R, \gamma \rangle\)

  • S: 状态集合(State Space)
  • A: 动作集合(Action Space)
  • P: 状态转移概率函数 \(P(s'|s,a)\),表示在状态 \(s\) 执行动作 \(a\) 后转移到状态 \(s'\) 的概率
  • R: 奖励函数 \(R(s,a)\)\(R(s,a,s')\),表示在状态 \(s\) 执行动作 \(a\)(并转移到状态 \(s'\))时获得的即时奖励期望
  • γ: 折扣因子(Discount Factor),\(γ \in [0,1]\),用于平衡当前奖励和未来奖励的重要性

2. 策略(Policy)

策略是智能体的行为准则,定义了在给定状态下选择动作的规则。策略是强化学习中需要学习的核心对象之一,它决定了智能体的行为方式。

2.1 确定性策略

确定性策略直接将状态映射到动作:

\[a = \pi(s) \]

在这种策略下,每个状态都对应唯一的动作。

2.2 随机性策略

随机性策略给出在状态 \(s\) 下选择动作 \(a\) 的概率:

\[\pi(a|s) = P(A_t=a|S_t=s) \]

随机性策略允许智能体在相同状态下以一定概率选择不同动作,这对于探索环境至关重要。

2.3 策略诱导的马尔可夫过程

给定一个策略 \(\pi\),MDP可以转化为一个MRP,其转移概率和奖励函数分别为:

  • 转移概率:\(\tilde{P}(s'|s) = \sum_{a \in A} \pi(a|s) P(s'|s,a)\)
  • 奖励函数:\(\tilde{R}(s) = \sum_{a \in A} \pi(a|s) R(s,a)\)

3. 随机性(Stochasticity)

强化学习中的随机性有两个主要来源:

  1. 动作的随机性:来源于策略,即在同一个状态下可能选择不同的动作
  2. 状态的随机性:来源于状态转移,即在相同的状态和动作下可能转移到不同的下一个状态

随机性是强化学习的重要特征,它使得智能体能够探索环境,避免陷入局部最优。同时,许多真实世界的环境本身就具有内在的随机性。

4. 回报与折扣回报

4.1 回报(Return)

回报是从某个时间步开始,未来所有奖励的总和。在时间步 \(t\) 的回报定义为:

\[G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... = \sum_{k=0}^{\infty} R_{t+k+1} \]

4.2 折扣回报(Discounted Return)

为了使回报收敛并体现即时奖励比未来奖励更重要的思想,引入折扣因子 \(γ\)

\[G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \]

折扣因子的作用包括:

  • 确保在无限时间范围内的回报收敛
  • 体现"即时奖励优于延迟奖励"的偏好
  • 建模环境的不确定性(未来的奖励不如当前奖励可靠)
  • 数学上的便利性

其中:

  • \(γ = 0\) 时,只考虑即时奖励,智能体变得短视
  • \(γ \to 1\) 时,未来奖励与即时奖励同等重要,智能体更注重长远利益
  • 通常 \(γ \in (0,1)\),用于平衡即时奖励和未来奖励

5. 价值函数(Value Function)

价值函数用于评估状态或状态-动作对的好坏,是强化学习的核心概念。它们量化了在给定状态下遵循特定策略的长期收益。

5.1 状态价值函数

状态价值函数表示在状态 \(s\) 下遵循策略 \(\pi\) 的期望回报:

\[v_{\pi}(s) = \mathbb{E}_{\pi}[G_t|S_t=s] = \mathbb{E}_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}|S_t=s] \]

5.2 动作价值函数

动作价值函数表示在状态 \(s\) 下采取动作 \(a\) 后遵循策略 \(\pi\) 的期望回报:

\[q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_t|S_t=s, A_t=a] = \mathbb{E}_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}|S_t=s, A_t=a] \]

状态价值函数和动作价值函数之间存在如下关系:

\[v_{\pi}(s) = \sum_{a \in A} \pi(a|s) q_{\pi}(s,a) \]

\[q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_t|S_t=s, A_t=a] = \sum_{s',r} P(s',r|s,a)[r + \gamma v_{\pi}(s')] \]

5.3 贝尔曼方程

价值函数满足递归关系,称为贝尔曼方程,它是求解MDP的核心工具。

状态价值函数的贝尔曼方程:

\[v_{\pi}(s) = \sum_{a \in A} \pi(a|s) \sum_{s',r} P(s',r|s,a)[r + \gamma v_{\pi}(s')] \]

或者简写为:

\[v_{\pi}(s) = \sum_{a \in A} \pi(a|s) \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma v_{\pi}(s')] \]

动作价值函数的贝尔曼方程:

\[q_{\pi}(s,a) = \sum_{s',r} P(s',r|s,a)[r + \gamma \sum_{a'} \pi(a'|s') q_{\pi}(s',a')] \]

或者简写为:

\[q_{\pi}(s,a) = \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma \sum_{a' \in A} \pi(a'|s') q_{\pi}(s',a')] \]

5.4 最优价值函数

最优状态价值函数和最优动作价值函数定义为:

\[v_*(s) = \max_{\pi} v_{\pi}(s) \]

\[q_*(s,a) = \max_{\pi} q_{\pi}(s,a) \]

对应的贝尔曼最优方程为:

\[v_*(s) = \max_{a \in A} \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma v_*(s')] \]

\[q_*(s,a) = \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma \max_{a' \in A} q_*(s',a')] \]

总结

以上介绍了强化学习的五个核心概念:

  1. 马尔可夫决策过程提供了强化学习问题的数学建模框架,包括马尔可夫性、马尔可夫过程、马尔可夫奖励过程和马尔可夫决策过程
  2. 策略决定了智能体的行为方式,可分为确定性策略和随机性策略
  3. 随机性使得智能体能够探索环境,是强化学习的重要特征
  4. 回报和折扣回报定义了智能体的目标,折扣因子用于平衡当前奖励和未来奖励
  5. 价值函数用于评估状态或动作的好坏,贝尔曼方程是求解价值函数的重要工具

理解这些基本概念是学习强化学习算法的基础。在实际应用中,这些概念构成了各种强化学习算法(如动态规划、蒙特卡洛方法、时序差分学习等)的理论基础。

posted @ 2025-11-01 17:21  aaooli  阅读(9)  评论(0)    收藏  举报