摘要:
编辑本随笔 概念:在多台机器上执行同一个爬虫程序,实现网站数据的分布式爬取 原生scrapy不可以实现分布式爬虫,原因如下: 分布式爬虫组件:scrapy-redis,该组件可以让scrapy实现分布式。 分布式爬取流程: 将bind 127.0.0.1注销掉 将保护模式改为no,关闭保护模式,即p 阅读全文
posted @ 2019-02-25 17:18
丫丫625202
阅读(372)
评论(0)
推荐(0)
摘要:
编辑本随笔 CrawlSpider概念:CrawlSpider就是Spider的一个类,功能更加强大。包含链接提取器,规则解析器。 代码: # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtr 阅读全文
posted @ 2019-02-25 16:33
丫丫625202
阅读(317)
评论(0)
推荐(0)

浙公网安备 33010602011771号