随笔分类 -  AI:LDA主题模型

摘要:《LDA数学八卦》对于LDA的Gibbs Sampling求解讲得很详细,在此不在重复在轮子,直接贴上该文这部分内容。 Gibbs Sampling 批注: 1、 对于第i个词语,上式k(主题类型)未知,取值范围为[1, K],t(词语类型)已知,即观测值。 2、 由于doc-topic与topic 阅读全文
posted @ 2018-10-06 11:59 coshaho 阅读(631) 评论(0) 推荐(0)
摘要:PLSA模型是基于频率派思想的,每篇文档的K个主题是固定的,每个主题的词语概率也是固定的,我们最终要求出固定的topic-word概率模型。贝叶斯学派显然不认同,他们认为,文档的主题未知,主题的词语分布未知,我们无法求解出精确值,只能计算doc-topic概率模型、topic-word概率模型的概率 阅读全文
posted @ 2018-10-06 01:12 coshaho 阅读(1049) 评论(0) 推荐(0)
摘要:主题模型 主题模型这样理解一篇文章的生成过程: 1、 确定文章的K个主题。 2、 重复选择K个主题之一,按主题-词语概率生成词语。 3、 所有词语组成文章。 这里可以看到,主题模型仅仅考虑词语的数量,不考虑词语的顺序,所以主题模型是词袋模型。 主题模型有两个关键的过程: 1、 doc -> topi 阅读全文
posted @ 2018-10-05 20:23 coshaho 阅读(5393) 评论(0) 推荐(0)
摘要:二维Gibbs Sampling算法 Gibbs Sampling是高维概率分布的MCMC采样方法。二维场景下,状态(x, y)转移到(x’, y’),可以分为三种场景 (1)平行于y轴转移,如上图中从状态A转移到状态B。 (2)平行于x轴转移,如上图中从状态A转移到状态C。 (3)其他情况转移,如 阅读全文
posted @ 2018-10-05 00:15 coshaho 阅读(3335) 评论(0) 推荐(0)
摘要:MCMC(Markov Chain Monte Carlo),即马尔科夫链蒙特卡洛方法,是以马尔科夫平稳状态作为理论基础,蒙特卡洛方法作为手段的概率序列生成技术。 MCMC理论基础 如果转移矩阵为P的马尔科夫链平稳状态和我们研究的概率质量函数(概率密度函数)分布一致,那么我么从任意初始值开始,经过一 阅读全文
posted @ 2018-10-04 21:32 coshaho 阅读(5883) 评论(0) 推荐(0)
摘要:蒙特卡洛(Monte Carlo)法是一类随机算法的统称。随着二十世纪电子计算机的出现,蒙特卡洛法已经在诸多领域展现出了超强的能力。在机器学习和自然语言处理技术中,常常被用到的MCMC也是由此发展而来。本文通过蒙特卡洛法最为常见的一种应用——求解定积分,来演示这类算法的核心思想。 无意识统计学家法则 阅读全文
posted @ 2018-10-03 23:33 coshaho 阅读(21120) 评论(1) 推荐(3)
摘要:马尔科夫链定义 马尔科夫链的定义如下 从定义中我们不难看出马氏链当前状态只与前一个状态相关。比如我们预测明天天气,只考虑今天天气状况,不考虑昨天前天的天气状况。 马尔科夫链平稳状态 举个具体的例子。社会学家把人按其经济状况分为3类:下层,中层,上层,我们用1,2,3表示这三个阶层。社会学家发现决定一 阅读全文
posted @ 2018-10-03 21:22 coshaho 阅读(29474) 评论(1) 推荐(9)
摘要:Dirichlet分布 我们把Beta分布推广到高维的场景,就是Dirichlet分布。Dirichlet分布定义如下 Dirichlet分布与多项式分布共轭。多项式分布定义如下 共轭关系表示如下 Dirichlet-MultCount共轭理解 上述共轭关系我们可以这样理解,先验Dirichlet分 阅读全文
posted @ 2018-10-03 17:00 coshaho 阅读(6348) 评论(0) 推荐(0)
摘要:一些公式 Gamma函数 (1) 贝叶斯公式 (2) 贝叶斯公式计算二项分布概率 现在有一枚未知硬币,我们想要计算抛出后出现正面的概率。我们使用贝叶斯公式计算硬币出现正面的概率。硬币出现正反率的概率和硬币两面的质量有较大关系,由于硬币未知,我们不知道是否会有人做手脚,于是在实验之前我们认为硬币出现正 阅读全文
posted @ 2018-09-16 23:24 coshaho 阅读(34765) 评论(0) 推荐(2)
摘要:独立同分布随机事件 对于n次独立同分布随机事件实验,我们如何计算随机事件概率?举个例子,我们抛同一枚硬币100次,出现正面52次,反面48次,那抛硬币正面的概率是多少? 频率派思想 频率派认为事件A的概率(如例子中抛硬币出现正面的概率)是确定的,只是我们不知道,当进行大量重复实验后,事件A发生的概率 阅读全文
posted @ 2018-09-16 15:47 coshaho 阅读(13452) 评论(0) 推荐(1)
摘要:Gamma函数 当n为正整数时,n的阶乘定义如下:n! = n * (n - 1) * (n - 2) * … * 2 * 1。 当n不是整数时,n!为多少?我们先给出答案。 容易证明,Γ(x + 1) = x * Γ(x),当n为正整数时,显然有Γ(n) = (n – 1)!。 计算(1/2)! 阅读全文
posted @ 2018-09-16 01:55 coshaho 阅读(37798) 评论(0) 推荐(1)
摘要:转自:https://www.cnblogs.com/Gabby/p/5344658.html 我讲EM算法的大概流程主要三部分:需要的预备知识、EM算法详解和对EM算法的改进。 一、EM算法的预备知识 1、极大似然估计 (1)举例说明:经典问题——学生身高问题 我们需要调查我们学校的男生和女生的身 阅读全文
posted @ 2018-09-02 12:23 coshaho 阅读(16001) 评论(0) 推荐(1)