PageRank

     看过PageRank的原始论文,有一个些疑惑:为什么最终会收敛?

现在大概才清楚了:pageRank其实是随机概率中的马尔科夫链应用在web中。马尔科夫链的性质:可收敛、跟初始状态无关。看看这个PPT就懂了http://wenku.baidu.com/view/e1ef56c9da38376baf1fae90.html

 

以下是几篇关于PageRank的好文章:

中文:

1)深入探讨PageRank(二):PageRank原理剖析   http://blog.csdn.net/monkey_d_meng/article/details/6556295

 2)Google搜索与Inter网中的数学

 

英文:

 1)斯坦福大学的文档,通俗易懂!

http://infolab.stanford.edu/~ullman/mining/websearch.pdf

    这里讲到“Dead Ends”的情况(pagerank文章中称之为“sink”,即一个page出度为0,这样会造成importance损失,逐渐减少到0)和“  Spider Traps”的情况(即一个group中的page都没有指向这个group外的链接,这样会造成importance一直累积。

如果一个page的入度为0,则通过传递,最后所有page将为0。

2)The Google Pagerank Algorithm and How It Works

http://www.sirgroane.net/google-page-rank/

    这个文档貌似也很详细,举了很多具体的例子:

3)How Google Finds Your Needle in the Web's Haystack

http://www.ams.org/samplings/feature-column/fcarc-pagerank

posted on 2012-04-10 16:58  Paul_bai  阅读(453)  评论(0编辑  收藏  举报

导航