摘要: 【导语】:在深度强化学习第四篇中,讲了Policy Gradient的理论。通过最终推导得到的公式,本文用PyTorch简单实现以下,并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。 1. 复习 \[ \theta \leftarro 阅读全文
posted @ 2021-01-16 10:09 pprp 阅读(2293) 评论(0) 推荐(0) 编辑