Loading

# 社会计算《网络、群体与市场》 笔记 8 链接分析与网络搜索

主要内容

网页排序(ranking、排名、排位)

  • 搜索服务的基本问题,传统信息检索技术的不足

中枢与权威

  • 一篇网页的两面性;有向图的启示

中枢值与权威值的计算(HITS算法)

PageRank——含义和计算

退化图结构带来的问题

随机游走及其与PageRank定义的等价关系

搜索引擎

引擎掌握的网页数:10亿左右

搜索到的网页:5-6个

如何决定网页的推荐

传统技术

基于词语之间的相关性,“查询目标包含查询词”

现今的技术

主页放在最前面,一定不是因为其中包含许多“哈尔滨工程大学”字样

很可能是由于许多包含“哈尔滨工程大学”字样的网页指向它

有效利用链接关系蕴含的信息,是搜索引擎超越传统信息检索系统、技术进步的最重要标志

中枢和权威

万维网中一篇网页的两面属性。观念:

  • 被很多网页指向:权威性高
  • 指向很多网页:中枢性强

反复改进原理

指向的网页的“票数”表示一定的认可度,同时也可以也可以反过来评估“推荐者”的份量

然后可以在考虑推荐者份量的情况下重新评估网站相对于“newspaper”的重要性

HITS算法

计算网页的权威值(auth)和中枢值(hub)

在实际中算法实施的针对性:相关网页集合

计算方法:

  1. 输入:一个有向图

  2. 初始化:对于每一个节点p,auth(p)=1,hub(p)=1

  3. 利用中枢值更新权威值

  • 对于每一个节点p,让auth(p)等于指向p的所有节点q的hub(q)之和
  1. 利用权威值更新中枢值
  • 对于每一个节点p,让hub(p)等于p指向的所有节点q的
    auth(q)之和
  1. 重复上述两步若干(k)次

在搜索引擎领域,auth值或hub值高的网页,有时分别称为“权威网页”和“中枢网页”。一篇网页可以兼具二者。

由于算法的性质,数值随迭代次数递增,而Auth和hub值的意义在于相对大小,所以,对于每一轮结束后,都要做归一化操作:\(\frac{数值}{总和}\)

归一化结果随迭代次数趋向于一个极限

极限与初值无关,即存在“均衡”

PageRank算法

image

  1. 输入:一个有n个节点的网络(有向图),设所有节点的PageRank初始值为1/ n
  2. 选择操作的步骤数k
  3. 对PageRank做k次更新操作,每次使用以下规则:
    • 每个节点将自己当前的PageRank值通过出向链接均分传递给所指向的节点
      • 若没有出向链接,则认为传递给自己
    • 每个节点以从⼊向链接获得的(包括可能自传的)所有值之和更新它的PageRank

image

Page算法的另一种可能:随机游走

想象一个人从一篇随机选择的网页开始,随机选择其中的链接浏览到下一篇网页,并不断如此进行,称为“随机游走”

考虑一篇网页X,问:经过k步随机游走到达X的概率,就是运行PageRank基本算法k步得到的值。

配套习题

14.2

(a)利用图14. 3,计算网络中网页经过两次循环后的中枢值和权威值。(即,运行k-步中枢权威算法,选则步骤数k 为2。)给出最后归一化处理前后的值,即将每个权威分值除以所有权威值之和,将每个中枢分值除以所有中枢分值之和。(我们称这种经过分压操作得到的值为归一化值。可以直接保留分数形式的归一化分值。)

image

(b)由于图14. 3 中节点A 和B 是对称的,因此(a)的计算结果应该是A 和B 有相同的权威值。现在改变节点E,使其同时也链接到C,构成如图14.4 所示的网络。类似于(a),对于图14. 4 的网络,计算每个节点运行2 次中枢权威更新规则而得到的归一化中枢和权威分值。

image

(c)在(b)中,节点A 和B 哪个具有较高的权威值。简单地从直观的角度来解释由(b)计算而得到的A 和B 权威值不同的原因。

(1)

image

(2)

image

(3)节点B 具有较高的权威值,因为E 指向了一个权威较高的节点C,导致其中枢值比D 高,进而导致了节点B 的权威值比节点A 的权威值高。

14.4

考量基本网页排名更新规则的极限值(即没有引入比例因子s)。在第14章,这些极限值描述为“一种基于直接推荐的平衡状态:当每个节点将其网页排名均匀分割并传递给向外链接指向的节点,这些值保持不变。这种描述提供了一个方法,可以检测网络中的网页排名值分配是否达到一个平衡状态:所有数值总和为1,并且再次运行基本网页排名更新规则时,保持不变。例如,第14 章图14.6 所示:如果指定A 的网页排名为\(\frac{4}{13}\),B 和C 为\(\frac{2}{13}\),其他5 个节点均为\(\frac{1}{13}\),这些数字加起来总和为1,并且再次运行基本网页排名更新规则,都保持不变。因此,它们形成一个网页排名值平衡状态。对于下面的两个网络,检查图中给出的数值是否达到网页排名值的平衡状态。(如果没有形成这种平衡状态,你不需要找出达到平衡的值;只需要简单地解释为什么所列出的值没有达到平衡。)

image

image

答:

a)该网络达到平衡状态。解释:所有节点的网页排名值之和为1,再次运行基本网页排名更新规则时,保持不变。

A B C D E
开始 3/10 1/10 2/10 1/10 3/10
运行后 3/10 1/10 2/10 1/10 3/10

b)该网络没有达到平衡状态。解释:所有节点的网页排名值之和为1,
再次运行基本网页排名更新规则时,值发生变化。原因:A 被指向、链接的次
数显然比E 高,但在该网络中A、E 的网页排名值是一样的。

posted @ 2021-08-29 08:58  笑云博文  阅读(1604)  评论(0)    收藏  举报