吴恩达机器学习笔记(四)

吴恩达机器学习笔记(四)

bellman方程

\(s\):当下所处的状态

\(a\):在s状态下要采取的行动

\(Q(s,a)\):在s状态下采用a行动后,所能获取的最大奖励

\(R(s)\):在当前状态下所能获得的奖励

\(\gamma\):折扣因子,在0到1之间

img

posted @ 2023-07-28 14:58  林珀  阅读(2)  评论(0编辑  收藏  举报