加载中...

随笔分类 -  强化学习

一只小菜狗的强化学习进阶之路
摘要:追逐问题,待更新 阅读全文
posted @ 2022-03-08 16:20 HeyRay_Yang 阅读(71) 评论(0) 推荐(0)
摘要:设一局游戏有$n$步,一局中的奖励记作$R_1,\cdots,R_n$。那么$t$时刻的: 折扣回报:\(U_t=\sum_{k=t}^n \gamma^{k-t} \cdot R_k\) 动作价值函数:\(Q_\pi\left( s_t, a_t \right) = \mathbb {E}\lef 阅读全文
posted @ 2022-03-03 23:11 HeyRay_Yang 阅读(180) 评论(0) 推荐(0)
摘要:概率统计基本概念 估计量 **无偏估计:**估计量的数学期望等于被估计参数的真实值,即在多次重复下,它们的平均数接近所估计的参数真值,则称此估计量为被估计参数的无偏估计,即具有无偏性。 强化学习基本概念 有模型和无模型 模型指的是显式地对MDP相关转移概率分布和回报函数建模。 蒙特卡洛方法和时间差分 阅读全文
posted @ 2022-03-02 20:44 HeyRay_Yang 阅读(216) 评论(0) 推荐(0)