随笔分类 -  RL

摘要:今天重温一下RL on-policy算法的始祖:Policy Gradient算法。第一节先讲原理。第二节讲Python代码实现。第三节讲Policy Gradient算法的引申思考。 一、Policy Gradient原理 要讲Policy Gradient算法,需要先简要介绍一下Markov奖励 阅读全文
posted @ 2025-08-06 20:47 Cainan_Guan 阅读(100) 评论(0) 推荐(0)