随笔分类 -  记录-总结-摘要-复写

记录一些博客的知识
摘要:在线强化学习 使用较小的时间单位成本就可以适应新的场景变化的微调结果。 首先使用离线数据进行深度强化学习的训练。 现有方法:离线强化学习预训练+在线强化学习微调。。。 预训练,通过海量的数据打下坚实的基础,泛化性比较高 微调,放到真实环境中, 产生问题: AI在进行在线强化学习微调的时候,会不断回顾 阅读全文
posted @ 2025-08-31 23:47 泪水下的笑靥 阅读(35) 评论(0) 推荐(0)