摘要:
马尔可夫链是指离散时间状态的随机过程,其中下一时刻的状态只由当前状态决定,在时间序列中它前面的事件均与之无关。 用数学公式描述的话,如下: 假设一个状态序列为 $\dots, x_{t-2}, x_{t-1}, x_{t}, x_{t+1}$,则转移至$x_{t+1}$只与$x_{t}$有关,即 $ 阅读全文
posted @ 2023-03-04 14:09
X1OO
阅读(392)
评论(0)
推荐(0)
摘要:
Gradient-based methods have difficulties to learn when rewards are large or sparse. 阅读全文
posted @ 2023-03-04 11:28
X1OO
阅读(24)
评论(0)
推荐(0)

浙公网安备 33010602011771号