所以燃

Information Retrieval --- Web Search

一、检索应用:采样、查重

二、链接分析

1.PageRank

image

一个网页的PageRank等于所有的指向它的网页的PageRank的分量之和(c为归一化参数)。一个网页如果它的入链越多,那么它也越重要(PageRank越高);一个网页如果被越重要的网页所指向,那么它也越重要(PageRank越高) 。

image

image

*随机游走(Random Walk)模型:到达u的概率由两部分组成,一部分是直接随机选中的概率(1-d)或(1-d)/N,另一部分是从指向它的网页顺着链接浏览的概率,则有

image

2.HITS(Hyperlink-Induced Topic Search)算法

image

image

一个网页被越重要的导航型网页指向越多,那么它的Authority越大;一个网页指向的高重要度权威型网页越多,那么它的Hub越大。

计算过程:

a.搜索的结果称为根集(root set);
b.将所有链向种子集合和种子集合链出的网页加入到种子集合;
c.新的更大的集合称为基本集(base set);
d.最后,在基本集上计算每个网页的hub值和authority值 (该基本集可以看成一个小的Web图)。

image

posted on 2013-12-16 22:10  Jizhiyuan  阅读(324)  评论(0编辑  收藏  举报

导航