吴恩达机器学习笔记（四）

吴恩达机器学习笔记（四）

bellman方程

\(s\):当下所处的状态

\(a\):在s状态下要采取的行动

\(Q(s,a)\):在s状态下采用a行动后，所能获取的最大奖励

\(R(s)\):在当前状态下所能获得的奖励

\(\gamma\):折扣因子，在0到1之间

posted @ 2023-07-28 14:58 林珀阅读(30) 评论(0) 收藏举报

刷新页面返回顶部