LDA( Latent Dirichlet Allocation Introduction)

Latent Dirichlet Allocation Introduction

LDA是给文本建模的一种方法，它属于生成模型。生成模型是指该模型可以随机生成可观测

的数据，LDA可以随机生成一篇由N 个主题组成文章。通过对文本的建模，我们可以对文本

进行主题分类，判断相似度等。在90 年代提出的 LSA 中，通过对向量空间进行降维，获得

文本的潜在语义空间。在 LDA 中则是通过将文本映射到主题空间，即认为一个文章有若干

主题随机组成，从而获得文本间的关系。LDA 模型有一个前提：bag of word。意思就是认为

文档就是一个词的集合，忽略任何语法或者出现顺序关系。

LDA的建模过程是逆向通过文本集合建立生成模型，在讨论如何建模时，我们先要理解 LDA

的生成模型如何生成一篇文档。

假设一个语料库中有三个主题：体育，科技，电影

一篇描述电影制作过程的文档，可能同时包含主题科技和主题电影，而主题科技中有一系列

的词，这些词和科技有关，并且他们有一个概率，代表的是在主题为科技的文章中该词出现

的概率。同理在主题电影中也有一系列和电影有关的词，并对应一个出现概率。当生成一篇

关于电影制作的文档时，首先随机选择某一主题，选择到科技和电影两主题的概率更高；然

后选择单词，选择到那些和主题相关的词的概率更高。这样就就完成了一个单词的选择。不

断选择N个单词，这样就组成了一篇文档。

Blog: http://foreveralbum.yo2.cn

posted on 2011-08-18 21:21 飞翔的Angela 阅读(1529) 评论(0) 编辑收藏举报