摘要:
$\gamma$ $$ \alpha = \sum_{i = 1}^{N} \left(M_{i} + \frac{x_i}{p} \right) $$ 阅读全文
posted @ 2018-07-11 13:45
JinyuBlog
阅读(221)
评论(0)
推荐(0)
摘要:
推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程 动态编程笔记 Dynamic programming in Python 本篇 马尔可夫决策过程 马尔可夫决策(MDP)过程为强化学习(RL)提供了理论基础,而动态编 阅读全文
posted @ 2018-07-11 13:25
JinyuBlog
阅读(5306)
评论(0)
推荐(1)