摘要: 今天重温一下RL on-policy算法的始祖:Policy Gradient算法。第一节先讲原理。第二节讲Python代码实现。第三节讲Policy Gradient算法的引申思考。 一、Policy Gradient原理 要讲Policy Gradient算法,需要先简要介绍一下Markov奖励 阅读全文
posted @ 2025-08-06 20:47 Cainan_Guan 阅读(72) 评论(0) 推荐(0)