WSRL-热身启动的在线强化学习，让机器人不再受限于新任务的学习成本

在线强化学习

使用较小的时间单位成本就可以适应新的场景变化的微调结果。

首先使用离线数据进行深度强化学习的训练。现有方法：离线强化学习预训练+在线强化学习微调。。。

AI在进行在线强化学习微调的时候，会不断回顾自己过去的学习的内容，这就导致：

这就导致不带旧数据模型会崩溃；带旧的数据，会又慢又受限制

Q值向下螺旋（downward Spiral），ai在某个状态下执行某个动作的信心或者价值估计。。

这就相当于：
没有了离线数据，AI就会进入闭卷考试，导致没有参考，进入“我一道题都不会”的自我怀疑，从而进一步低估自己

热启动强化学习（WSRL）
在考试前，不需要带上所有图书馆的复习资料，而是只需要进行一个简单的岗前培训或者热身即可。。

热身阶段只是收集一小部分的数据，帮助AI在新的环境中平稳地重新校准，这就可以避免上述产生的问题。

我觉得应用就是：未来买回来个机器人，不需要重新在你家花大量时间去在你家的场景里进行训练，而是可以直接微调，花几个小时就可以热身并且在你家的这么小的地方投入使用（毕竟这时就不需要太大的泛化性了）

posted @ 2025-08-31 23:47 泪水下的笑靥阅读(20) 评论(0) 收藏举报

刷新页面返回顶部