摘要: 基本的爬虫工作原理基本的http抓取原理,scrapyBloom Filter:分布式爬虫概念rq和Scrapy的结合后续处理,网页析取假如是一只蜘蛛,爬到第一个页面,然后把页面全部抄下来,用脑子存下所看过的页面地址,每次想爬一个新链接都要去查一下这个页面是否去过,去过就不去了。(... 阅读全文
posted @ 2017-01-29 20:31 云胡同学 阅读(437) 评论(0) 推荐(0)