摘要:
如下图所示: 初始点在 S0, 终点在S8, 其中红线的部分是墙,不能通过,绿色的圆圈是此刻所在位置。 每次实验的初始策略,是在任一的状态时可以选的动作其概率都是均等的,如果三个动作可以选就各为0.333333,如果是两个动作可以选就各是0.5。 每次实验通过不断的根据策略采样探索路径,并根据探索的 阅读全文
posted @ 2020-07-15 15:50
Angry_Panda
阅读(932)
评论(0)
推荐(0)
浙公网安备 33010602011771号