摘要: 本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 阅读全文
posted @ 2014-05-22 18:43 CodeMeals 阅读(7497) 评论(26) 推荐(4) 编辑
摘要: 博客园用户由关注和粉丝的关系,这与网页的链接关系很类似,于是我就爬了博客园的粉丝与关注用户,然后计算了一下用户的PageRank排名。这里列出了博客园用户排名的前200的用户。完整数据放在了github上 阅读全文
posted @ 2014-05-22 09:01 CodeMeals 阅读(4539) 评论(15) 推荐(18) 编辑
reliable statistics
Visitors