随笔分类 - scrapy
摘要:scrapy里面,对每次请求的url都有一个指纹,这个指纹就是判断url是否被请求过的。默认是开启指纹即一个URL请求一次。如果我们使用分布式在多台机上面爬取数据,为了让爬虫的数据不重复,我们也需要一个指纹。但是scrapy默认的指纹是保持到本地的。所有我们可以使用redis来保持指纹,并且用red
阅读全文
摘要:scrapy设置ua池 设置后在setting启用 scrapy设置ip池 scrapy 设置自定义cookie:class LaogouwangSpider(scrapy.Spider): scrapy提供五种日志级别。
阅读全文
摘要:使用scrapy爬取整个网站的图片数据。并且使用 CrawlerProcess 启动。 1 # -*- coding: utf-8 -* 2 import scrapy 3 import requests 上面的是spider文件 上面的是item文件 这上面是管道文件 这是在setting里面的,
阅读全文
摘要:--***2019-3-27测试有效*** 第一步: 打开cmd,输入scrapy startproject taobao_s新建一个项目。 接着cd 进入我们的项目文件夹内输入scrapy genspider taobao www.taobao.com新建一个爬虫 文件内是这样的,tools是我建
阅读全文

浙公网安备 33010602011771号