策略梯度:https://blog.csdn.net/hhy_csdn/category_8657689.html https://tomaxent.com/2019/04/14/策略梯度方法/ http://xuleek.tech/2020/02/20/基于policy-gradient的RL算法实现/
好的代码库:https://github.com/deligentfool