摘要: 强化学习Chapter3——贝尔曼方程 上一节介绍了衡量回报 \(R\) 的相关函数,包括状态价值函数与动作价值函数,并且介绍了二者之间的等式关系 \[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ Q^\pi(s,a)= 阅读全文
posted @ 2023-07-13 16:57 tsyhahaha 阅读(1701) 评论(0) 推荐(0)
摘要: 强化学习Chapter2——优化目标(2) 上文推导出强化学习的一般性目标,即不做确定性假设下的优化目标,得到了下面两个式子: \[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0} P(s_{t+1}|s_t,a_t)\pi(a_t|s_t)\\ J(\pi)=\in 阅读全文
posted @ 2023-07-13 16:03 tsyhahaha 阅读(290) 评论(0) 推荐(0)
摘要: 强化学习Chapter2——优化目标(1) 上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义,而仅用回报的定义一笔带过。本节的目标旨在不涉及算法地详述强化学习的目标。 强化学习一般性目标 上文提到,强化学习的目标可以解释为:在一个 Trajectories 阅读全文
posted @ 2023-07-13 10:24 tsyhahaha 阅读(419) 评论(0) 推荐(0)