随笔档案「2021年1月16日」：【深度强化学习】9. Policy Gradient实现中... - pprp

2021年1月16日

【深度强化学习】9. Policy Gradient实现中核心部分torch.distributions

摘要：【导语】：在深度强化学习第四篇中，讲了Policy Gradient的理论。通过最终推导得到的公式，本文用PyTorch简单实现以下，并且尽可能搞清楚torch.distribution的使用方法。代码参考了LeeDeepRl-Notes中的实现。 1. 复习 \[ \theta \leftarro 阅读全文

posted @ 2021-01-16 10:09 pprp 阅读(2983) 评论(0) 推荐(0)

pprp

一开始就奔着月亮去，就算失败，也或许能收获一颗星星

公告