WSRL-热身启动的在线强化学习,让机器人不再受限于新任务的学习成本

在线强化学习

使用较小的时间单位成本就可以适应新的场景变化的微调结果。

首先使用离线数据进行深度强化学习的训练。 现有方法:离线强化学习预训练+在线强化学习微调。。。

  • 预训练,通过海量的数据打下坚实的基础,泛化性比较高
  • 微调,放到真实环境中,

产生问题:

AI在进行在线强化学习微调的时候,会不断回顾自己过去的学习的内容,这就导致:

  • 庞大的离线教科书数据
  • 接触到新任务导致“灾难性遗忘”

这就导致不带旧数据模型会崩溃;带旧的数据,会又慢又受限制

去掉离线数据为何会崩溃?

Q值向下螺旋(downward Spiral),ai在某个状态下执行某个动作的信心或者价值估计。。

  • AI在离线数据中学到的情况和在线遇到的情况存在差异,这是分布不匹配
  • 由于离线数据中的保守性悲观估计,AI对未知的Q值往往会给出较低的悲观预估。。。
  • 这个较低的Q值会类似于滚雪球般一能影响到其它的Q值,形成雪崩式的崩溃,进入向下螺旋的状态。。。

这就相当于:
没有了离线数据,AI就会进入闭卷考试,导致没有参考,进入“我一道题都不会”的自我怀疑,从而进一步低估自己

解决办法

热启动强化学习(WSRL)
在考试前,不需要带上所有图书馆的复习资料,而是只需要进行一个简单的岗前培训或者热身即可。。

步骤

  • 初始化,利用离线数据训练一个策略网络\(\pi\)和一个评估网络\(q\)
  • WSRL,在正式进行微调前,让预训练好的模型与真实环境进行一小段的交互,比如也就几千步的交互,把这些交互数据存起来到一个空的“经验池”里面。
  • 微调,彻底抛弃庞大的离线数据集,AI在正式微调时,只从“热身”阶段后续交互中产生的交互数据中进行学习。

热身阶段只是收集一小部分的数据,帮助AI在新的环境中平稳地重新校准,这就可以避免上述产生的问题。

展望

我觉得应用就是:未来买回来个机器人,不需要重新在你家花大量时间去在你家的场景里进行训练,而是可以直接微调,花几个小时就可以热身并且在你家的这么小的地方投入使用(毕竟这时就不需要太大的泛化性了)

posted @ 2025-08-31 23:47  泪水下的笑靥  阅读(20)  评论(0)    收藏  举报