了解主题模型,一般都会提到几种最基础的生成模型:Unigram model、Mixture of unigram,pLSA,接下来简单介绍一下他们之间的区别: 1.Unigram model 左图可知,一篇文档由词生成,每个词有其出现的概率,所有词概率的乘积即得到生成文档的概率。 2.Mixture Read More
posted @ 2018-10-20 22:37
巴拉巴拉程序猿
Views(3356)
Comments(0)
Diggs(0)
BTM的原理跟LDA很像,下面是该模型的概率图: 由该图可以看出来,与LDA的区别在于确定主题分布和词分布后相应地取两个词(而LDA只取一个,即类比常见的骰子说法:先投掷K面的骰子得到主题z,再根据相应的V面骰子,连续投掷两次,得到一对词汇),这俩词叫做biterm(就是在把一个文档分词之后,对这些 Read More
posted @ 2018-10-20 20:43
巴拉巴拉程序猿
Views(2547)
Comments(2)
Diggs(0)
看到一段对主题模型的总结,感觉很精辟: 如何找到文本隐含的主题呢?常用的方法一般都是基于统计学的生成方法。即假设以一定的概率选择了一个主题,然后以一定的概率选择当前主题的词。最后这些词组成了我们当前的文本。所有词的统计概率分布可以从语料库获得,具体如何以“一定的概率选择”,这就是各种具体的主题模型算 Read More
posted @ 2018-10-20 16:20
巴拉巴拉程序猿
Views(1031)
Comments(0)
Diggs(0)