HITS算法
当考虑有向网络中节点的重要性时,一种简单的方法是把有向网络视为无向网络,从而可以直接利用无向网络中节点的重要性指标。
然而,有向网络中边的方向对于节点的重要性往往是非常重要的。
例如,在论文引用网络中,一篇论文的出度是它的参考文献的数量,而人度是该论文的他引次数。显然,即使一篇论文的出度很大,即参考文献数量很多,也不能反映该论文是否一定重要,否则每个人都可以轻而易举地写出重要的文章了。
评价一篇论文是否重要更为合理的标准应该是与它的入度即他引次数相关的。
当然,如果我们再仔细想一下,一篇论文是否重要不仅要看有多少别人的论文引用它,还要看其中有多少重要的论文引用它。
关于刻画有向网络中节点重要性的一个典型例子当推 WWW上的搜索。
当你在 Google、百度或者Bing等搜索引擎网站上输人一个关键词后,搜索引擎就会基于某种排序算法对与该关键词有关的网页按照某种重要性指标进行排序。
在搜索引擎领域已经成为经典的两个算法是Cornell大学的 Kleinberg提出的HITS算法以及 Google创始人Page和 Brin提出的PageRank 算法。
HITS算法描述
HITS算法的基本思想是:
每个网页的重要性有两种刻画指标——权威性(Authority)和枢纽性(Hub)。
例如,当你想要查找与“上海交通大学"有关的页面时,显然,从内容的权威性角度看,上海交通大学主页应该是最重要的。
另一方面,如果WWW上有一个网页H,该网页的唯一功能就是给出全世界最重要的一些大学的主页的链接,其中就包含了上海交通大学主页的链接,那么网页H就具有相对高的枢纽值,也就是说从网页H能够到达一些重要的权威页面。
一般地,
一个页面的权威值由指向该页面的其他页面的枢纽值来刻画:
如果一个页面被多个具有高枢纽值的页面所指向,那么该页面就具有高的权威值。
另一方面,一个页面的枢纽值由它所指向的页面的权威值来刻画:
如果一个页面指向多个具有高权威值的页面,那么该页面就具有高的枢纽值。
可以通过论文引用网络加以说明。
在每个研究领域都会有一些具有重要创新的文章,这些文章在这个领域就具有高的权威性;
另一方面,每个领域都有一些重要的综述文章,这些文章本身并不一定有重要创新,但是却列出了该领域主要的一些权威性高的文章,你只要通过这些综述文章的参考文献就可以通向那些权威性高的重要论文,从而这些综述文章就具有较高的枢纽性。
参考:
[1] 汪小帆,李翔,陈关荣.网络科学导论[M].北京:高等教育出版社,2012

浙公网安备 33010602011771号