人工智能课预习:7.1 强化学习介绍

强化学习介绍

定义

概念

强化学习 :智能体通过与环境交互,基于奖励反馈进行策略优化,以最大化长期累积回报的机器学习方法。

环境(Environment) :外部系统,决定状态如何变化并反馈奖励。接收动作并根据状态转移概率 \(P\) 切换到新状态,并给予奖励 \(𝑹_𝒕\)

智能体(Agent) :决策主体,观察状态并根据策略 𝝅 选择动作 \(𝑨_𝒕\) 作用于环境。

智能体策略 \(\boldsymbol{\pi}\)

\[\pi(a|s) = P[A_t = a | S_t = s] \]

  • 确定性策略(Deterministic Policy):𝑎 = 𝜋(𝑠)

  • 随机性策略(Stochastic Policy):𝜋(𝑎|𝑠) = 𝑃 [ \(𝐴_𝑡\) = 𝑎 | \(𝑆_𝑡\) = 𝑠 ]

环境状态转移概率 \(\boldsymbol{\mathrm{P}}\)

\[P[S_{t+1} | S_t, A_t] \]

奖励(Reward,\(R_t\) :环境对智能体执行动作 \(A_t\) 的即时反馈信号。用于度量动作的好坏。

\[\mathbb{E}[R_{t+1} | S_t = s, A_t = a] \]

状态(State,\(S_t\) :环境在时刻 \(t\) 的信息描述。

动作(Action,\(A_t\) :智能体在状态 \(S_t\) 下做出的行动。

状态转移(State Transition) :环境根据当前状态 \(S_t\) 和动作 \(A_t\) 更新到新状态 \(S_{t + 1}\),同时给出奖励 \(R_{t + 1}\)

回报(Return) :从某时刻起所有折扣奖励的总和 \(\boldsymbol{G_t}\)

\[G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \]

\(\boldsymbol{\gamma \in [0,1]}\) 是折扣因子

价值函数(Value Function) :评估状态好坏的指标,衡量长期回报。

  • 状态价值

\[V^\pi(s) = \mathbb{E}_\pi \big[ G_t \mid S_t = s \big] \]

  • 动作价值

\[Q^\pi(s, a) = \mathbb{E}_\pi \big[ G_t \mid S_t = s,\, A_t = a \big] \]

模型(Model) :预测环境的下一步变化,表示智能体对环境的估计。

  • \(\boldsymbol{P}\)(预测下一时刻的状态):

\[P_{ss'}^a (s' \mid s, a) = P \big[ S_{t+1} = s' \mid S_t = s,\, A_t = a \big] \]

  • \(\boldsymbol{R}\)(预测下一步奖励):

\[R_s^a = \mathbb{E} \big[ R_{t+1} \mid S_t = s,\, A_t = a \big] \]

示例:倒立摆(CartPole)
环境(environment):重力场
状态空间(state space):小车位置、速度,杆子角度、角速度
动作空间(action space):对小车施加的力或扭矩

测评的常用指标:

  • 平均回合奖励:每个回合获得的总奖励取平均值

  • 成功率:限定时间步中的成功率

  • 步数:成功持续时间步

特点

试错学习(Trial-and-Error Learning)

不依赖标注数据,通过不断尝试动作、接收反馈(奖励/惩罚)逐步优化策略。

  • 不同于监督学习:不依赖监督的“正确答案”,而是通过环境“奖励/惩罚”反馈自我修正。

  • 例如:AlphaGo Zero 不需要人类指导,通过胜率结果优化策略,最终超越人类。

延迟奖励(Delayed Reward)

奖励可能滞后于动作,一个动作的好坏可能要经过多个步骤后才能体现。

  • 需要智能体学会长期规划,而不是只关注短期利益。

  • 例如:围棋中间某一步的价值可能要几步后才能体现。

序列决策(Sequential Decision Making)

智能体的决策具有时间依赖性,每个决策不仅影响当前奖励,还会影响未来的状态和奖励。

  • 需考虑长期后果,优化整个策略,而非孤立优化每一步收益。

  • 例如:围棋中每一步棋都影响整个棋局的发展,从而产生千变万化的局势走向。

长期回报最大化(Maximizing Cumulative Reward)

强化学习目标是最大化累积奖励,而非单步最优决策。

  • 不同于监督学习学到“函数映射”,而是一个策略(Policy) ,告诉智能体在不同状态下应该执行哪个动作才能长期最优。

  • 例如:围棋中“弃子争先”,不能为了局部优势而放弃全局的主动权。

环境交互(Environment Interaction)

智能体与环境的交互是动态且持续的,每一步动作影响后续状态,形成动态反馈循环。

  • 智能体不仅仅发现数据模式,还可以通过动作改变数据分布。

  • 例如:推荐系统根据用户点击行为(动作)调整推送内容(新状态)。

探索与利用权衡(Exploration vs. Exploitation Trade-off)

探索、尝试未知的动作,获取更多信息;利用基于已有经验选择当前最优动作。

  • 智能体需要在探索新策略(可能更优)和利用已有策略(当前最佳)之间找到平衡。

  • 例如:推荐系统如果一直推荐用户最常点击的内容,可能会错过用户的潜在兴趣。

强化学习与监督学习、无监督学习的区别

监督学习(Supervised Learning)

  • 训练数据有明确标签

  • 目标是最小化误差

  • 学习 “函数映射”

无监督学习(Unsupervised Learning)

  • 训练数据没有标签

  • 目标是找到数据的潜在模式

  • 发现 “数据结构”

强化学习(Reinforcement Learning)

  • 数据由智能体通过试错获取

  • 目标是最大化长期收益

  • 学习 “策略”

应用

围棋、游戏、自动驾驶、机器人、推理大模型

发展

  • 早期理论基础:马尔可夫决策过程(MDP)和动态规划(Dynamic Programming)

  • 现代强化学习基石:时序差分(Temporal Difference,TD)学习,Q-Learning

  • 与深度学习结合:DQN (Deep Q-Network),AlphaGo

  • 现代深度强化学习的百花齐放:Actor-Critic 体系,离线强化学习,多智能体强化学习

posted @ 2025-06-16 08:54  Antimerry  阅读(92)  评论(0)    收藏  举报