强化学习（一）：概述

一、介绍

1、强化学习(reinforcement learning, RL)是人工智能（AI）的核心分支之一。

人工智能核心的分支有：

机器学习：一些经典的学习算法，例如线性回归、随机森林等，目前工业界主流已经很少单独使用

深度学习：通过神经网络进行学习

强化学习：通过试错进行学习

大模型：参数量很大（几千亿）的深度学习

2、强化学习的核心思想是通过试错来学习：

智能体(agent)通过与环境(environment)持续进行交互，每次交互得到奖励或者惩罚的反馈，从而优化策略，得到最大的奖励。

3、为什么研究强化学习

强化学习通过自己的试错学习，得到超过人类的表现，例如alpha go，围棋赢过人类冠军

而监督学习（机器学习、深度学习）是以人类标注的数据为依据，上限就是人类的表现

二、架构

1、两部分：环境、智能体Agent

2、三要素：状态state、动作action、奖励reward

3、流程

在时刻t，state为St，agent做出决策，选择一个action（At），引起了状态state的变化；

在时刻t+1，state变成St+1，同时得到奖励Rt+1；

agent再次做出决策选择动作，循环该过程

4、目标

智能体最大化长期总收益，尽可能获取最大的奖励

三、要素解释

1、环境状态S，t时刻的状态为St，是环境状态集合里的某一个状态

2、agent的动作A，t时刻的动作为At，是动作集合（动作空间）里的某一个动作

3、环境的奖励R，t时刻，在状态St时，选择动作At，会在t+1时刻得到奖励Rt+1

4、个体策略π，个体会依据π来选择动作，例如 $π (a | s) = P (A_{t} = a | S_{t} = s)$

5、采取动作后的价值Vπ(s)

6、奖励衰减因子 $γ$

7、概率状态机，即在t时刻状态s时，动作选择a，转化到下一个状态s'的概率

8、探索率ϵ，即不选择当前迭代轮次里，价值最大的动作的概率，提高了随机性，防止一些比较好的动作被错过

四、探索和利用

1、探索(exploration)：尝试一些新的动作，但是有可能得到奖励，有可能得到惩罚

2、利用(exploitation)：采取已知的获取奖励最多的动作，重复执行，但是未知动作有可能获得更高的奖励

3、探索利用窘境：需要对两者进行权衡

解决方法：

$ε-$ 贪心：有ε的概率随机，刚开始时，不知道哪个动作好，会花费大力气做探索；随着训练次数增多，就会减少探索；所以ε一直递减，随机性变小

玻尔兹曼探索：类似于梯度策略

五、价值函数

1、状态价值函数：输入是一个状态，根据状态，计算以后积累奖励的期望

2、动作价值函数：输入是一个状态-动作对，即某个状态，及在该状态下采取的动作；同时假设使用策略Π，计算积累奖励的期望

3、智能体的核心目标：学习价值函数，即某个状态（状态-动作对）下，未来能获得累计奖励的期望

六、强化学习的应用

1、游戏

2、自动驾驶

3、具身智能（机器人）

参考：

https://datawhalechina.github.io/easy-rl/#/

posted @ 2025-07-12 16:38 牧云文仔阅读(42) 评论(0) 收藏举报

刷新页面返回顶部

牧云文仔

强化学习（一）：概述

公告