笔记-scrapy-setting

1. 简介

Scrapy设置允许您自定义所有Scrapy组件的行为，包括核心，扩展，管道和蜘蛛本身.

可以使用不同的机制来填充设置，每种机制都有不同的优先级。以下按优先级降序排列：

命令行选项（最优先）

每个蜘蛛的设置

项目设置模块settings.py

每个命令的默认设置

默认的全局设置（优先级较低）

2. 使用

2.1. 在spider中查看和修改设置

可以手动修改设置文件，但有内置属性可以访问设置：self.settings:

class MySpider(scrapy.Spider):

name = 'myspider'

start_urls = ['http://example.com']

custom_settings = { 'SOME_SETTING': 'some value',}

def parse(self, response):

print("Existing settings: %s" % self.settings.attributes.keys())

2.2. 一些参数

BOT_NAME:项目名称

CONCURRENT_ITEMS 项目管道中并行处理的最大并行数默认： 100

CONCURRENT_REQUESTS 下载器并发数，默认16

CONCURRENT_REQUESTS_PER_DOMAIN 将对任何单个域执行的并发（即同时）请求的最大数量默认： 8

DEFAULT_REQUEST_HEADERS 默认请求头部

DEPTH_LIMIT 最大抓取深度，默认0，代表不使用该参数

DEPTH_PRIORITY 根据深度调整优先级：

0默认，不会调整；

正值，降低优先级，后处理

负值，提高优先级，先处理

DNSCACHE_ENABLED 启用 DNS内存缓存，默认True启用

DOWNLOADER 下载器Default: 'scrapy.core.downloader.Downloader'

DOWNLOADER_MIDDLEWARES 是否使用下载中间件，默认不使用

DOWNLOAD_DELAY 下载器在下载连续页面（同一网站）时的间隔，默认0（不太在什么地方识别是否为同一网站连续页面）

DOWNLOAD_TIMEOUT 下载超时等待时间

DOWNLOAD_MAXSIZE 下载器下载最大响应大小（字节），反反爬用，某此网站。。。

此功能需要twisted>=11.1

DOWNLOAD_WARNSIZE 下载器发出警告的响应大小

ITEM_PIPELINES 管道对象，顺序任意

日志部分：

LOG_ENABLED 是否启用日志

LOG_ENCODING

LOG_FILE

LOG_FORMAT

LOG_DATEFORMAT

LOG_LEVEL 默认DEBUG

LOG_STDOUT 默认False

内存部分：

MEMUSAGE_LIMIT_MB 默认0，限制使用内存大小（得将MEMUSAGE_ENABLED设为True）

MEMUSAGE_NOTIFY_MAIL 达到内存使用限制后邮件通知

例MEMUSAGE_NOTIFY_MAIL = [ 'user@example.com' ]

MEMUSAGE_WARNING_MB 配合上一参数使用

posted @ 2018-05-21 15:18 木林森__𣛧阅读(117) 评论(0) 收藏举报

刷新页面返回顶部

木林森__𣛧

笔记-scrapy-setting

笔记-scrapy-setting

1. 简介

2. 使用

2.1. 在spider中查看和修改设置

2.2. 一些参数

公告