DRL-基础概念

强化学习基础概念技术指南

强化学习（Reinforcement Learning, RL）是机器学习的一个重要分支，它研究智能体（agent）如何在环境中通过试错学习来最大化累积奖励。本指南将介绍强化学习中的几个核心概念。

1. 马尔可夫决策过程（Markov Decision Process, MDP）

马尔可夫决策过程是强化学习问题的数学框架，用于描述完全可观测环境中的序贯决策问题。MDP为智能体与环境的交互提供了形式化的建模方法。在MDP框架下，环境被建模为一系列状态，智能体通过执行动作与环境交互，并从环境中获得奖励信号作为反馈。

1.1 马尔可夫性

马尔可夫性（Markov Property）是指系统的下一个状态只依赖于当前状态，而与之前的状态无关。这一特性简化了复杂系统的建模，因为它意味着系统的历史信息全部包含在当前状态中。数学表达为：

\[P(S_{t+1}|S_t) = P(S_{t+1}|S_1, S_2, ..., S_t) \]

这意味着，只要给定当前状态，历史状态对未来状态的预测没有额外帮助。在强化学习中，这要求状态表示必须包含做出决策所需的全部信息。

1.2 马尔可夫过程

马尔可夫过程（Markov Process）或称马尔可夫链（Markov Chain），是一个满足马尔可夫性的随机过程，由状态集合和状态转移概率组成。它是一个没有决策者干预的随机系统模型。

1.3 马尔可夫奖励过程

马尔可夫奖励过程（Markov Reward Process, MRP）是在马尔可夫过程的基础上增加了奖励函数和折扣因子，形成四元组 \(\langle S, P, R, \gamma \rangle\)：

S: 状态集合（State Space）
P: 状态转移概率矩阵，\(P(s'|s)\) 表示从状态 \(s\) 转移到状态 \(s'\) 的概率
R: 奖励函数，\(R(s)\) 表示在状态 \(s\) 下获得的即时奖励期望
γ: 折扣因子（Discount Factor），\(γ \in [0,1]\)

1.4 马尔可夫决策过程核心要素详解

马尔可夫决策过程由四个核心要素组成，这些要素共同定义了强化学习问题的结构：

状态（State, S）

状态是环境的描述，是对世界的快照。在MDP中，状态需要满足马尔可夫性，即包含了做出最优决策所需的全部信息。状态集合 \(\mathcal{S}\) 包含所有可能的状态。在时间 \(t\)，环境处于状态 \(s_t \in \mathcal{S}\)。

状态可以是：

离散的（如棋盘位置）
连续的（如机器人关节角度）
高维的（如图像像素）

在强化学习中，一个好的状态表示应当包含做出决策所需的全部信息。

动作（Action, A）

动作是智能体可以执行的操作集合。动作集合 \(\mathcal{A}\) 包含所有可能的动作。在时间 \(t\)，智能体选择动作 \(a_t \in \mathcal{A}(s_t)\)，其中 \(\mathcal{A}(s_t)\) 表示在状态 \(s_t\) 下可执行的动作集合。

动作可以是：

离散的（如上下左右移动）
连续的（如施加在机器人关节上的力矩）
多维的（如同时控制多个执行器）

奖励（Reward, R）

奖励是环境对智能体动作的反馈信号，表示在某个状态下执行某个动作的好坏程度。奖励函数 \(R\) 定义了在状态 \(s\) 执行动作 \(a\)（可能转移到状态 \(s'\)）时获得的即时奖励。

奖励函数可以表示为：

\(R(s)\)：只依赖于状态
\(R(s,a)\)：依赖于状态和动作
\(R(s,a,s')\)：依赖于状态、动作和下一个状态

奖励信号是强化学习的目标导向，智能体的目标是最大化长期累积奖励。

状态转移（State Transition, P）

状态转移概率函数 \(P\) 描述了环境的动态特性，定义了在状态 \(s\) 执行动作 \(a\) 后转移到状态 \(s'\) 的概率。形式化表示为：

\[P(s'|s,a) = Pr(S_{t+1}=s'|S_t=s,A_t=a) \]

状态转移概率具有概率性质：

\(P(s'|s,a) \geq 0\)
\(\sum_{s' \in \mathcal{S}} P(s'|s,a) = 1\)

状态转移可以是：

确定性的：给定状态和动作，下一个状态是确定的
随机性的：给定状态和动作，下一个状态服从某种概率分布

1.5 马尔可夫决策过程完整定义

马尔可夫决策过程是马尔可夫奖励过程的扩展，增加了动作集合，形成了强化学习问题的标准数学形式化表示。一个MDP可以定义为五元组 \(\langle S, A, P, R, \gamma \rangle\)：

S: 状态集合（State Space）
A: 动作集合（Action Space）
P: 状态转移概率函数 \(P(s'|s,a)\)，表示在状态 \(s\) 执行动作 \(a\) 后转移到状态 \(s'\) 的概率
R: 奖励函数 \(R(s,a)\) 或 \(R(s,a,s')\)，表示在状态 \(s\) 执行动作 \(a\)（并转移到状态 \(s'\)）时获得的即时奖励期望
γ: 折扣因子（Discount Factor），\(γ \in [0,1]\)，用于平衡当前奖励和未来奖励的重要性

2. 策略（Policy）

策略是智能体的行为准则，定义了在给定状态下选择动作的规则。策略是强化学习中需要学习的核心对象之一，它决定了智能体的行为方式。

2.1 确定性策略

确定性策略直接将状态映射到动作：

\[a = \pi(s) \]

在这种策略下，每个状态都对应唯一的动作。

2.2 随机性策略

随机性策略给出在状态 \(s\) 下选择动作 \(a\) 的概率：

\[\pi(a|s) = P(A_t=a|S_t=s) \]

随机性策略允许智能体在相同状态下以一定概率选择不同动作，这对于探索环境至关重要。

2.3 策略诱导的马尔可夫过程

给定一个策略 \(\pi\)，MDP可以转化为一个MRP，其转移概率和奖励函数分别为：

转移概率：\(\tilde{P}(s'|s) = \sum_{a \in A} \pi(a|s) P(s'|s,a)\)
奖励函数：\(\tilde{R}(s) = \sum_{a \in A} \pi(a|s) R(s,a)\)

3. 随机性（Stochasticity）

强化学习中的随机性有两个主要来源：

动作的随机性：来源于策略，即在同一个状态下可能选择不同的动作
状态的随机性：来源于状态转移，即在相同的状态和动作下可能转移到不同的下一个状态

随机性是强化学习的重要特征，它使得智能体能够探索环境，避免陷入局部最优。同时，许多真实世界的环境本身就具有内在的随机性。

4. 回报与折扣回报

4.1 回报（Return）

回报是从某个时间步开始，未来所有奖励的总和。在时间步 \(t\) 的回报定义为：

\[G_t = R_{t+1} + R_{t+2} + R_{t+3} + ... = \sum_{k=0}^{\infty} R_{t+k+1} \]

4.2 折扣回报（Discounted Return）

为了使回报收敛并体现即时奖励比未来奖励更重要的思想，引入折扣因子 \(γ\)：

\[G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \]

折扣因子的作用包括：

确保在无限时间范围内的回报收敛
体现"即时奖励优于延迟奖励"的偏好
建模环境的不确定性（未来的奖励不如当前奖励可靠）
数学上的便利性

其中：

当 \(γ = 0\) 时，只考虑即时奖励，智能体变得短视
当 \(γ \to 1\) 时，未来奖励与即时奖励同等重要，智能体更注重长远利益
通常 \(γ \in (0,1)\)，用于平衡即时奖励和未来奖励

5. 价值函数（Value Function）

价值函数用于评估状态或状态-动作对的好坏，是强化学习的核心概念。它们量化了在给定状态下遵循特定策略的长期收益。

5.1 状态价值函数

状态价值函数表示在状态 \(s\) 下遵循策略 \(\pi\) 的期望回报：

\[v_{\pi}(s) = \mathbb{E}_{\pi}[G_t|S_t=s] = \mathbb{E}_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}|S_t=s] \]

5.2 动作价值函数

动作价值函数表示在状态 \(s\) 下采取动作 \(a\) 后遵循策略 \(\pi\) 的期望回报：

\[q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_t|S_t=s, A_t=a] = \mathbb{E}_{\pi}[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1}|S_t=s, A_t=a] \]

状态价值函数和动作价值函数之间存在如下关系：

\[v_{\pi}(s) = \sum_{a \in A} \pi(a|s) q_{\pi}(s,a) \]

\[q_{\pi}(s,a) = \mathbb{E}_{\pi}[G_t|S_t=s, A_t=a] = \sum_{s',r} P(s',r|s,a)[r + \gamma v_{\pi}(s')] \]

5.3 贝尔曼方程

价值函数满足递归关系，称为贝尔曼方程，它是求解MDP的核心工具。

状态价值函数的贝尔曼方程：

\[v_{\pi}(s) = \sum_{a \in A} \pi(a|s) \sum_{s',r} P(s',r|s,a)[r + \gamma v_{\pi}(s')] \]

或者简写为：

\[v_{\pi}(s) = \sum_{a \in A} \pi(a|s) \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma v_{\pi}(s')] \]

动作价值函数的贝尔曼方程：

\[q_{\pi}(s,a) = \sum_{s',r} P(s',r|s,a)[r + \gamma \sum_{a'} \pi(a'|s') q_{\pi}(s',a')] \]

或者简写为：

\[q_{\pi}(s,a) = \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma \sum_{a' \in A} \pi(a'|s') q_{\pi}(s',a')] \]

5.4 最优价值函数

最优状态价值函数和最优动作价值函数定义为：

\[v_*(s) = \max_{\pi} v_{\pi}(s) \]

\[q_*(s,a) = \max_{\pi} q_{\pi}(s,a) \]

对应的贝尔曼最优方程为：

\[v_*(s) = \max_{a \in A} \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma v_*(s')] \]

\[q_*(s,a) = \sum_{s' \in S} P(s'|s,a)[R(s,a) + \gamma \max_{a' \in A} q_*(s',a')] \]

总结

以上介绍了强化学习的五个核心概念：

马尔可夫决策过程提供了强化学习问题的数学建模框架，包括马尔可夫性、马尔可夫过程、马尔可夫奖励过程和马尔可夫决策过程
策略决定了智能体的行为方式，可分为确定性策略和随机性策略
随机性使得智能体能够探索环境，是强化学习的重要特征
回报和折扣回报定义了智能体的目标，折扣因子用于平衡当前奖励和未来奖励
价值函数用于评估状态或动作的好坏，贝尔曼方程是求解价值函数的重要工具

理解这些基本概念是学习强化学习算法的基础。在实际应用中，这些概念构成了各种强化学习算法（如动态规划、蒙特卡洛方法、时序差分学习等）的理论基础。

posted @ 2025-11-01 17:21 aaooli 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

aaooli