2017 年 1月 29 日随笔档案 - 云胡同学

2017年1月29日

摘要：基本的爬虫工作原理基本的http抓取原理，scrapyBloom Filter：分布式爬虫概念rq和Scrapy的结合后续处理，网页析取假如是一只蜘蛛，爬到第一个页面，然后把页面全部抄下来，用脑子存下所看过的页面地址，每次想爬一个新链接都要去查一下这个页面是否去过，去过就不去了。（... 阅读全文

posted @ 2017-01-29 20:31 云胡同学阅读(440) 评论(0) 推荐(0)