强化学习A2C

策略函数梯度:

  

 

 状态价值函数梯度:
  

整体训练:

 

posted @ 2021-11-13 12:12  山…隹  阅读(102)  评论(0)    收藏  举报