随笔分类 - 强化学习
一只小菜狗的强化学习进阶之路
摘要:追逐问题,待更新
阅读全文
摘要:设一局游戏有$n$步,一局中的奖励记作$R_1,\cdots,R_n$。那么$t$时刻的: 折扣回报:\(U_t=\sum_{k=t}^n \gamma^{k-t} \cdot R_k\) 动作价值函数:\(Q_\pi\left( s_t, a_t \right) = \mathbb {E}\lef
阅读全文
摘要:概率统计基本概念 估计量 **无偏估计:**估计量的数学期望等于被估计参数的真实值,即在多次重复下,它们的平均数接近所估计的参数真值,则称此估计量为被估计参数的无偏估计,即具有无偏性。 强化学习基本概念 有模型和无模型 模型指的是显式地对MDP相关转移概率分布和回报函数建模。 蒙特卡洛方法和时间差分
阅读全文

浙公网安备 33010602011771号