笔记-scrapy-setting
笔记-scrapy-setting
1. 简介
Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和蜘蛛本身.
可以使用不同的机制来填充设置,每种机制都有不同的优先级。以下按优先级降序排列:
命令行选项(最优先)
每个蜘蛛的设置
项目设置模块settings.py
每个命令的默认设置
默认的全局设置(优先级较低)
2. 使用
2.1. 在spider中查看和修改设置
可以手动修改设置文件,但有内置属性可以访问设置:self.settings:
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://example.com']
custom_settings = { 'SOME_SETTING': 'some value',}
def parse(self, response):
print("Existing settings: %s" % self.settings.attributes.keys())
2.2. 一些参数
BOT_NAME:项目名称
CONCURRENT_ITEMS 项目管道中并行处理的最大并行数 默认: 100
CONCURRENT_REQUESTS 下载器并发数,默认16
CONCURRENT_REQUESTS_PER_DOMAIN 将对任何单个域执行的并发(即同时)请求的最大数量默认: 8
DEFAULT_REQUEST_HEADERS 默认请求头部
DEPTH_LIMIT 最大抓取深度,默认0,代表不使用该参数
DEPTH_PRIORITY 根据深度调整优先级:
0默认,不会调整;
正值,降低优先级,后处理
负值,提高优先级,先处理
DNSCACHE_ENABLED 启用 DNS内存缓存,默认True启用
DOWNLOADER 下载器Default: 'scrapy.core.downloader.Downloader'
DOWNLOADER_MIDDLEWARES 是否使用下载中间件,默认不使用
DOWNLOAD_DELAY 下载器在下载连续页面(同一网站)时的间隔,默认0(不太在什么地方识别是否为同一网站连续页面)
DOWNLOAD_TIMEOUT 下载超时等待时间
DOWNLOAD_MAXSIZE 下载器下载最大响应大小(字节),反反爬用,某此网站。。。
此功能需要twisted>=11.1
DOWNLOAD_WARNSIZE 下载器发出警告的响应大小
ITEM_PIPELINES 管道对象,顺序任意
日志部分:
LOG_ENABLED 是否启用日志
LOG_ENCODING
LOG_FILE
LOG_FORMAT
LOG_DATEFORMAT
LOG_LEVEL 默认DEBUG
LOG_STDOUT 默认False
内存部分:
MEMUSAGE_LIMIT_MB 默认0,限制使用内存大小(得将MEMUSAGE_ENABLED设为True)
MEMUSAGE_NOTIFY_MAIL 达到内存使用限制后邮件通知
例MEMUSAGE_NOTIFY_MAIL = [ 'user@example.com' ]
MEMUSAGE_WARNING_MB 配合上一参数使用

浙公网安备 33010602011771号