摘要:
Latent Dirichlet Allocation IntroductionLDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N 个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90 年代提出的 LSA 中,通过对向量空间进行降维,获得文本的潜在语义空间。在 LDA 中则是通过将文本映射到主题空间,即认为一个文章有若干主题随机组成,从而获得文本间的关系。LDA 模型有一个前提:bag of word。意思就是认为文档就是一个词的集合,忽略任何语法或者出现顺序关系。LDA的建模过程是逆向通过文本集合 阅读全文
posted @ 2011-08-18 21:21
飞翔的Angela
阅读(1563)
评论(0)
推荐(0)
摘要:
它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Go. 阅读全文
posted @ 2011-08-18 21:03
飞翔的Angela
阅读(1061)
评论(0)
推荐(0)
摘要:
什么是增量更新? 阅读全文
posted @ 2011-08-18 20:48
飞翔的Angela
阅读(604)
评论(0)
推荐(0)
浙公网安备 33010602011771号