PageRank算法
应用:
对于网页检索结果进行排序
核心思想:
指向一个网站的链接越多,这个网站就越重要;如果一个网站被一些很重要的网站指向,那么这个网站也很重要。
PageRank最简单的公式:
u是一个网页,Bu是指向u的所有网页的集合,R为最简单的PageRank值,c为标准化因子(0<c<1),Nv为v指向其他网页的总链接数量。
遇到的问题:
(1)一些网页没有外链
(2)一些网页构成循环
解决:
增加E,其中E(u)为第u个网页的逃脱因子。
矩阵表示为
当u有指向v的链接则Au,v为1/Nu ,否则为0,令||R’||1 = 1,1为全1的向量
PageRank计算:
总结:
PageRank通过网页的超链接关系计算得到,有效地提高了检索的效率。