2017 年 4月 20 日随笔档案 - 王树燚

2017年4月20日

摘要： 1，如何模拟登陆2，验证码识别3，分布式爬取网页4，数据存储5，网页更新6，基于关键字的微博爬取然后上面的每一个问题其实研究起来都是很有意思的。虽然上面的每一个问题都有很多人解决，但是我感觉都不是很漂亮，下面一点一点来分析：第一个，模拟登陆。我估计啊，每一个爬微博数据的人都会花费50%的时间在这，阅读全文

posted @ 2017-04-20 11:48 王树燚阅读(457) 评论(0) 推荐(0)

分布式爬虫调度策略

摘要：前言：爬虫是偏IO型的任务，分布式爬虫的实现难度比分布式计算和分布式存储简单得多。个人以为分布式爬虫需要考虑的点主要有以下几个：爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能 Python分布式爬虫比较常用的应阅读全文

posted @ 2017-04-20 10:28 王树燚阅读(3866) 评论(0) 推荐(1)

爬虫进阶

摘要：爬虫写得多了，就感到有些乏。这个乏，指的并不是乏味，而是更广一些的，浑身使不上劲的SIW 乏。从务实的角度看，现有的答案已经回答地非常全面，无可指摘了。相信大多数人的爬虫入门都和我类似，先从urllib2入手，写一个最简陋的get,面对一大堆源码无所适从。接着开始接触传说中给人用的requests 阅读全文

posted @ 2017-04-20 09:47 王树燚阅读(482) 评论(0) 推荐(0)

爬虫URL去重

摘要：这个要看你想抓取的网页数量是哪种规模的。如果是千万以下用hash表， set，布隆过滤器基本可以解决，如果是海量的。。。。。。嗯我也没做过海量的，不过hash表之类的就别想了，内存根本不够，分割线下面是我的一个想法，欢迎大家讨论。布隆过滤器，大概几十行代码就可以实现。可以节省很多内存（我自己写了一阅读全文

posted @ 2017-04-20 09:15 王树燚阅读(5020) 评论(0) 推荐(0)

Loading

王树燚

公告