Loading

摘要: 1,如何模拟登陆2,验证码识别3,分布式爬取网页4,数据存储5,网页更新6,基于关键字的微博爬取 然后上面的每一个问题其实研究起来都是很有意思的。虽然上面的每一个问题都有很多人解决,但是我感觉都不是很漂亮,下面一点一点来分析:第一个,模拟登陆。我估计啊,每一个爬微博数据的人都会花费50%的时间在这, 阅读全文
posted @ 2017-04-20 11:48 王树燚 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 前言: 爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应 阅读全文
posted @ 2017-04-20 10:28 王树燚 阅读(3804) 评论(0) 推荐(1) 编辑
摘要: 爬虫写得多了,就感到有些乏。这个乏,指的并不是乏味,而是更广一些的,浑身使不上劲的SIW 乏。从务实的角度看,现有的答案已经回答地非常全面,无可指摘了。相信大多数人的爬虫入门都和我类似,先从urllib2入手,写一个最简陋的get,面对一大堆源码无所 适从。接着开始接触传说中给人用的requests 阅读全文
posted @ 2017-04-20 09:47 王树燚 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 这个要看你想抓取的网页数量是哪种规模的。如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的。。。。。。嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下面是我的一个想法,欢迎大家讨论。布隆过滤器,大概几十行代码就可以实现。可以节省很多内存(我自己写了一 阅读全文
posted @ 2017-04-20 09:15 王树燚 阅读(4990) 评论(0) 推荐(0) 编辑