强化学习 - 随笔分类 - wzd321

马尔科夫网络

摘要：承认客观世界中有这样一种现象，其未来由现在决定的程度，使得我们关于过去的知识丝毫不影响这种决定性。这种在已知“现在”的条件下，“未来”与“过去”彼此独立的特性就被称为马尔科夫性，具有这种性质的随机过程就叫做马尔科夫过程，其最原始的模型就是马尔科夫链。这即是对荷兰数学家惠更斯提出的无后效原理的概率推广阅读全文

posted @ 2018-12-04 23:47 wzd321 阅读(1120) 评论(0) 推荐(0)

机器学习的应用领域和知识点

摘要：阅读全文

posted @ 2018-09-28 22:05 wzd321 阅读(320) 评论(0) 推荐(0)

KL散度

摘要：KL散度是两个概率分布P与Q差异的一种方法： 1.离散概率分布KL散度计算公式 2.连续概率分布KL散度计算公式 KL散度可以很好地度量两个分布之间的距离，两个分布越接近，KL散度越小，两个分布越远，KL散度越大。参考：https://blog.csdn.net/ericcchen/article 阅读全文

posted @ 2018-09-28 15:44 wzd321 阅读(268) 评论(0) 推荐(0)

蒙特卡洛采样、重要性采样

摘要：有一个概率密度函数p(x)，求解随机变量x基于此概率下某个函数f(x)的期望，表示如下：如果概率分布形式比较简单的话，我们可以采用解析的方法：如果f(x)过于复杂的话，直接求解就非常复杂，我们采用蒙特卡洛的方法。根据大数定理，当采样数量足够大的话，采样样本可以无限近似地表示原分布，我们可以得到：阅读全文

posted @ 2018-09-28 12:08 wzd321 阅读(5110) 评论(0) 推荐(0)

伯努利分布和高斯分布下的最大似然估计、交叉熵

摘要：伯努利分布是一个离散型机率分布。试验成功，随机变量取值为1；试验失败，随机变量取值为0。成功机率为p，失败机率为q =1-p，N次试验后，成功期望为N*p，方差为N*p*(1-p) ，所以伯努利分布又称两点分布。观察到的数据为D1，D2，D3，...，DN，极大似然的目标：联合分布难计算，我们因阅读全文

posted @ 2018-09-27 22:13 wzd321 阅读(3467) 评论(0) 推荐(0)

wzd321

导航

公告

随笔分类 - 强化学习

马尔科夫网络

机器学习的应用领域和知识点

KL散度

蒙特卡洛采样、重要性采样

伯努利分布和高斯分布下的最大似然估计、交叉熵