PageRank算法与TextRank算法详解

PageRank算法:

该算法本质上属于有向带权图。
对于某个互联网网页A来说，该网页PageRank的计算基于以下两个基本假设：
- 数量假设：在Web图模型中，如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要。
- 质量假设：指向页面A的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A，则页面A越重要。
迭代方法：
- map: 在一轮更新页面PageRank得分的计算中，每个页面将其当前的PageRank值平均分配到本页面包含的出链上，这样每个链接即获得了相应的权值。
- reduce: 而每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值，就完成了一轮PageRank计算。
  - 我的理解是下一时刻PR值与前一时刻的PR值无直接关系，只取决于入度的权重。
阻尼系数：
- 由于存在一些出链为0，也就是那些不链接任何其他网页的网，也称为孤立网页，使得很多网页能被访问到。因此需要对 PageRank公式进行修正，即在简单公式的基础上增加了阻尼系数\(q\)， \(q\)一般取值\(q=0.85\)。
- \(1-q= 0.15\)就是用户停止点击，随机跳到新URL的概率
PageRank计算得出的结果是网页的重要性评价，这和用户输入的查询是没有任何关系的，即算法是主题无关的。是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查询响应时间。
缺点:
- 人们的查询具有主题特征，PageRank忽略了主题相关性，导致结果的相关性和主题性降低。
- 旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接，除非它是某个站点的子站点。

TextRank算法

本质上属于无向带权图。
将有向图算法改进为无向图算法，不再区分结点的指向性，而只关注结点的邻居结点及本身的连通度。
具有较高权重的结点也被认为与更多重要结点具有较高的连通度，可以抽象为网络的“中心”，而在多文档文摘中，中心结点代表包含重要信息的文摘句。

posted @ 2019-01-13 14:55 szx_spark 阅读(2614) 评论(0) 收藏举报

刷新页面返回顶部

szx_spark

Do cool things that matter .

PageRank算法与TextRank算法详解

PageRank算法:

TextRank算法

公告