刷新
Re:强化学习(三)用动态规划(DP)求解

@Song_sly 你好! 本文例子里的最优策略是唯一的,实际项目里的不一定。你描述的那个策略,和k=无穷的那个策略,其实已经是同一个策略了,你可以看看每个格子里的策略方向是不是一样的即可。 对的,不一定是定值,可以是一个概率函数。这样策略可以多样化。

123···200>