摘要:承认客观世界中有这样一种现象,其未来由现在决定的程度,使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下,“未来”与“过去”彼此独立的特性就被称为马尔科夫性,具有这种性质的随机过程就叫做马尔科夫过程,其最原始的模型就是马尔科夫链。这即是对荷兰数学家惠更斯提出的无后效原理的概率推广
阅读全文
posted @ 2018-12-04 23:47
|
|
|
随笔分类 - 强化学习
强化学习的理论和实践分析
摘要:承认客观世界中有这样一种现象,其未来由现在决定的程度,使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下,“未来”与“过去”彼此独立的特性就被称为马尔科夫性,具有这种性质的随机过程就叫做马尔科夫过程,其最原始的模型就是马尔科夫链。这即是对荷兰数学家惠更斯提出的无后效原理的概率推广
阅读全文
posted @ 2018-12-04 23:47
摘要:KL散度是两个概率分布P与Q差异的一种方法: 1.离散概率分布KL散度计算公式 2.连续概率分布KL散度计算公式 KL散度可以很好地度量两个分布之间的距离,两个分布越接近,KL散度越小,两个分布越远,KL散度越大。 参考:https://blog.csdn.net/ericcchen/article
阅读全文
posted @ 2018-09-28 15:44
摘要:有一个概率密度函数p(x),求解随机变量x基于此概率下某个函数f(x)的期望,表示如下: 如果概率分布形式比较简单的话,我们可以采用解析的方法: 如果f(x)过于复杂的话,直接求解就非常复杂,我们采用蒙特卡洛的方法。根据大数定理,当采样数量足够大的话,采样样本可以无限近似地表示原分布,我们可以得到:
阅读全文
posted @ 2018-09-28 12:08
摘要:伯努利分布是一个离散型机率分布。试验成功,随机变量取值为1;试验失败,随机变量取值为0。成功机率为p,失败机率为q =1-p,N次试验后,成功期望为N*p,方差为N*p*(1-p) ,所以伯努利分布又称两点分布。 观察到的数据为D1,D2,D3,...,DN,极大似然的目标: 联合分布难计算,我们因
阅读全文
posted @ 2018-09-27 22:13
|
|