随笔分类 - 记录-总结-摘要-复写

记录一些博客的知识

摘要：在线强化学习使用较小的时间单位成本就可以适应新的场景变化的微调结果。首先使用离线数据进行深度强化学习的训练。现有方法：离线强化学习预训练+在线强化学习微调。。。预训练，通过海量的数据打下坚实的基础，泛化性比较高微调，放到真实环境中，产生问题： AI在进行在线强化学习微调的时候，会不断回顾阅读全文

posted @ 2025-08-31 23:47 泪水下的笑靥阅读(52) 评论(0) 推荐(0)

myleaf

随笔分类 - 记录-总结-摘要-复写

公告