PPO算法动作概率出现[0,0,0,0,0,1]的问题

在PPO算法中，使用softmax函数使actor网络生成离散动作与其对应的概率分布时，碰到了出现[1,0,0]这种情况。
经过查验，是因为状态空间s的输入数值太大，经验证，超过500即会产生这种情况，具体什么原因不得而知。（待查证）
解决方案就是将状态空间归一化，缩小之后就好了。

posted @ 2024-08-08 09:51 Wonx3 阅读(54) 评论(0) 收藏举报