吴恩达机器学习笔记(四)
吴恩达机器学习笔记(四)
bellman方程
\(s\):当下所处的状态
\(a\):在s状态下要采取的行动
\(Q(s,a)\):在s状态下采用a行动后,所能获取的最大奖励
\(R(s)\):在当前状态下所能获得的奖励
\(\gamma\):折扣因子,在0到1之间
\(s\):当下所处的状态
\(a\):在s状态下要采取的行动
\(Q(s,a)\):在s状态下采用a行动后,所能获取的最大奖励
\(R(s)\):在当前状态下所能获得的奖励
\(\gamma\):折扣因子,在0到1之间