导航

随笔分类 -  强化学习

强化学习的理论和实践分析
摘要:承认客观世界中有这样一种现象,其未来由现在决定的程度,使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下,“未来”与“过去”彼此独立的特性就被称为马尔科夫性,具有这种性质的随机过程就叫做马尔科夫过程,其最原始的模型就是马尔科夫链。这即是对荷兰数学家惠更斯提出的无后效原理的概率推广 阅读全文

posted @ 2018-12-04 23:47 wzd321 阅读(1116) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2018-09-28 22:05 wzd321 阅读(318) 评论(0) 推荐(0)

摘要:KL散度是两个概率分布P与Q差异的一种方法: 1.离散概率分布KL散度计算公式 2.连续概率分布KL散度计算公式 KL散度可以很好地度量两个分布之间的距离,两个分布越接近,KL散度越小,两个分布越远,KL散度越大。 参考:https://blog.csdn.net/ericcchen/article 阅读全文

posted @ 2018-09-28 15:44 wzd321 阅读(268) 评论(0) 推荐(0)

摘要:有一个概率密度函数p(x),求解随机变量x基于此概率下某个函数f(x)的期望,表示如下: 如果概率分布形式比较简单的话,我们可以采用解析的方法: 如果f(x)过于复杂的话,直接求解就非常复杂,我们采用蒙特卡洛的方法。根据大数定理,当采样数量足够大的话,采样样本可以无限近似地表示原分布,我们可以得到: 阅读全文

posted @ 2018-09-28 12:08 wzd321 阅读(5108) 评论(0) 推荐(0)

摘要:伯努利分布是一个离散型机率分布。试验成功,随机变量取值为1;试验失败,随机变量取值为0。成功机率为p,失败机率为q =1-p,N次试验后,成功期望为N*p,方差为N*p*(1-p) ,所以伯努利分布又称两点分布。 观察到的数据为D1,D2,D3,...,DN,极大似然的目标: 联合分布难计算,我们因 阅读全文

posted @ 2018-09-27 22:13 wzd321 阅读(3463) 评论(0) 推荐(0)