PPO算法动作概率出现[0,0,0,0,0,1]的问题
在PPO算法中,使用softmax函数使actor网络生成离散动作与其对应的概率分布时,碰到了出现[1,0,0]这种情况。
经过查验,是因为状态空间s的输入数值太大,经验证,超过500即会产生这种情况,具体什么原因不得而知。(待查证)
解决方案就是将状态空间归一化,缩小之后就好了。
在PPO算法中,使用softmax函数使actor网络生成离散动作与其对应的概率分布时,碰到了出现[1,0,0]这种情况。
经过查验,是因为状态空间s的输入数值太大,经验证,超过500即会产生这种情况,具体什么原因不得而知。(待查证)
解决方案就是将状态空间归一化,缩小之后就好了。