合集-Reinforce Learning

摘要:强化学习Chapter1——基本认识 一句话概括强化学习(RL,reinforce learning):强化学习是通过对某个主体的行为来进行奖励或者惩罚,从而使其在未来更可能重复或者放弃某个行为。(倒有点“培养小学生养成良好的学习习惯”那味了......) 从基本概念谈起 1、框架表征:State, 阅读全文
posted @ 2023-07-12 13:44 tsyhahaha 阅读(286) 评论(2) 推荐(0)
摘要:强化学习Chapter2——优化目标(1) 上节涉及强化学习基本思路以及利用数学方式表征强化学习,但对强化学习的目标并没有进行详尽的定义,而仅用回报的定义一笔带过。本节的目标旨在不涉及算法地详述强化学习的目标。 强化学习一般性目标 上文提到,强化学习的目标可以解释为:在一个 Trajectories 阅读全文
posted @ 2023-07-13 10:24 tsyhahaha 阅读(427) 评论(0) 推荐(0)
摘要:强化学习Chapter2——优化目标(2) 上文推导出强化学习的一般性目标,即不做确定性假设下的优化目标,得到了下面两个式子: \[P(\tau|\pi)=\rho_0(s_0)\prod^{T-1}_{t=0} P(s_{t+1}|s_t,a_t)\pi(a_t|s_t)\\ J(\pi)=\in 阅读全文
posted @ 2023-07-13 16:03 tsyhahaha 阅读(304) 评论(0) 推荐(0)
摘要:强化学习Chapter3——贝尔曼方程 上一节介绍了衡量回报 \(R\) 的相关函数,包括状态价值函数与动作价值函数,并且介绍了二者之间的等式关系 \[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ Q^\pi(s,a)= 阅读全文
posted @ 2023-07-13 16:57 tsyhahaha 阅读(1722) 评论(0) 推荐(0)
摘要:强化学习Chapter4——两个基本优化算法(1) 上一节导出了状态价值函数的贝尔曼方程以及最优状态价值函数: \[\begin{aligned} V^\pi(s) &=E_{a\sim \pi,s’\sim P}[r(s,a)+\gamma V^\pi(s‘)]\\ &= \sum_{a}\pi( 阅读全文
posted @ 2023-08-03 22:38 tsyhahaha 阅读(268) 评论(0) 推荐(0)
摘要:强化学习Chapter4——两个基本优化算法(2) 上一节,依据贝尔曼方程得出了策略迭代算法(policy iteration),本节将介绍另一种根据贝尔曼最优方程提出的,价值迭代算法(value iteration)。在此之后,将阐述这两种算法的共性与区别,并总结出一个中间性能的截断策略迭代算法( 阅读全文
posted @ 2023-08-04 00:29 tsyhahaha 阅读(291) 评论(0) 推荐(0)