摘要:
用heritrix爬得结果之后,开始计算结果页面的pagerank。计算pagerank需要得到url之间的链接关系。根据 这里 的说法可以通过以下三种方法得到。1. 直接分析爬到的网页得到url间的链接关系。2. 分析hertrix的log,得到hertrix爬取的路径,从而得到网页间的链接关系。3. 修改hertrix的源代码,在爬取过程中将链接关系记录下来。 第二种看似是最方便的方法,这里我们先详尽看下hertrix log的格式。一、hertrix log格式(以下部分内容转自 http://blog.sina.com.cn/s/blog_5e8392b10100r563.html). 阅读全文
posted @ 2012-04-05 00:20
liugoodness
阅读(725)
评论(0)
推荐(0)