摘要: 文章来源 计算机学报2025年1月 比较新的一篇中文综述,值得一读 O Introduction DRL应用如AlphaGo需要与环境在线交互,并且进行大量数据采样,现实世界代价昂贵且试错风险极高 2020年Levine提出离线强化学习概念(Offline Reinforcement Learnin 阅读全文
posted @ 2025-02-14 13:28 霜尘FrostDust 阅读(1848) 评论(0) 推荐(0)