WSRL-热身启动的在线强化学习,让机器人不再受限于新任务的学习成本
在线强化学习
使用较小的时间单位成本就可以适应新的场景变化的微调结果。
首先使用离线数据进行深度强化学习的训练。 现有方法:离线强化学习预训练+在线强化学习微调。。。
- 预训练,通过海量的数据打下坚实的基础,泛化性比较高
- 微调,放到真实环境中,
产生问题:
AI在进行在线强化学习微调的时候,会不断回顾自己过去的学习的内容,这就导致:
- 庞大的离线教科书数据
- 接触到新任务导致“灾难性遗忘”
这就导致不带旧数据模型会崩溃;带旧的数据,会又慢又受限制
去掉离线数据为何会崩溃?
Q值向下螺旋(downward Spiral),ai在某个状态下执行某个动作的信心或者价值估计。。
- AI在离线数据中学到的情况和在线遇到的情况存在差异,这是分布不匹配
- 由于离线数据中的保守性及悲观估计,AI对未知的Q值往往会给出较低的悲观预估。。。
- 这个较低的Q值会类似于滚雪球般一能影响到其它的Q值,形成雪崩式的崩溃,进入向下螺旋的状态。。。
这就相当于:
没有了离线数据,AI就会进入闭卷考试,导致没有参考,进入“我一道题都不会”的自我怀疑,从而进一步低估自己
解决办法
热启动强化学习(WSRL)
在考试前,不需要带上所有图书馆的复习资料,而是只需要进行一个简单的岗前培训或者热身即可。。
步骤
- 初始化,利用离线数据训练一个策略网络\(\pi\)和一个评估网络\(q\)
- WSRL,在正式进行微调前,让预训练好的模型与真实环境进行一小段的交互,比如也就几千步的交互,把这些交互数据存起来到一个空的“经验池”里面。
- 微调,彻底抛弃庞大的离线数据集,AI在正式微调时,只从“热身”阶段和后续交互中产生的交互数据中进行学习。
热身阶段只是收集一小部分的数据,帮助AI在新的环境中平稳地重新校准,这就可以避免上述产生的问题。
展望
我觉得应用就是:未来买回来个机器人,不需要重新在你家花大量时间去在你家的场景里进行训练,而是可以直接微调,花几个小时就可以热身并且在你家的这么小的地方投入使用(毕竟这时就不需要太大的泛化性了)

浙公网安备 33010602011771号