摘要:
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 阅读全文
posted @ 2014-05-22 18:43
CodeMeals
阅读(7529)
评论(26)
推荐(4)
摘要:
博客园用户由关注和粉丝的关系,这与网页的链接关系很类似,于是我就爬了博客园的粉丝与关注用户,然后计算了一下用户的PageRank排名。这里列出了博客园用户排名的前200的用户。完整数据放在了github上 阅读全文
posted @ 2014-05-22 09:01
CodeMeals
阅读(4645)
评论(15)
推荐(18)