强化学习 - 随笔分类 - HeyRay_Yang

Decentralized Multi-Agent Pursuit Using Deep Reinforcement Learning

摘要：追逐问题，待更新阅读全文

posted @ 2022-03-08 16:20 HeyRay_Yang 阅读(71) 评论(0) 推荐(0)

摘要：设一局游戏有$n$步，一局中的奖励记作$R_1,\cdots,R_n$。那么$t$时刻的：折扣回报：$U_t=\sum_{k=t}^n \gamma^{k-t} \cdot R_k$ 动作价值函数：\(Q_\pi\left( s_t, a_t \right) = \mathbb {E}\lef 阅读全文

posted @ 2022-03-03 23:11 HeyRay_Yang 阅读(180) 评论(0) 推荐(0)

强化学习之路 - 02 基本概念

摘要：概率统计基本概念估计量 **无偏估计：**估计量的数学期望等于被估计参数的真实值，即在多次重复下，它们的平均数接近所估计的参数真值，则称此估计量为被估计参数的无偏估计，即具有无偏性。强化学习基本概念有模型和无模型模型指的是显式地对MDP相关转移概率分布和回报函数建模。蒙特卡洛方法和时间差分阅读全文

posted @ 2022-03-02 20:44 HeyRay_Yang 阅读(216) 评论(0) 推荐(0)

加载中...

HeyRay's Blog

为有牺牲多壮志，敢教日月换新天

随笔分类 - 强化学习

公告