scrapy settings2

Analysis

#Logging

#Telnet‌

#engine.pause()
>>> engine.unpause()
>>> engine.stop()

性能

#DOWNLOAD_TIMEOUT决定了下载器在取消请求之前等待的时间

#DOWNLOAD_DELAY设置修改此设置以应用更保守的下载速度

#CONCURRENT_REQUESTS设置要同时执行的最大请求数

#CONCURRENT_REQUESTS_PER_DOMAIN和CONCURRENT_REQUESTS_PER_IP

#CONCURRENT_ITEMS设置可以同时处理的每个响应的最大项目数

#为了更快的DNS查找,内存中的DNS缓存默认通过
DNSCACHE_ENABLED 设置

停止抓取

scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10
$ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10

HTTP缓存和脱机

爬行风格

DEPTH_PRIORITY = 1

DEPTH_LIMIT设置中设置最大深度,其中0表示无限制。可以通过DEPTH_PRIORITY设置根据深度为请求分配优先级

Feed

Feed可让您将Scrapy抓取的数据导出到本地文件系统或远程服务器

Feed的位置由FEED_URI确定

媒体下载

Image Pipeline下载媒体内容
IMAGES_STORE设置将存储图像的(使用相对路径会在项目中创建的根文件夹的目录)的目录。每个项目的图像的URL 应该在其image_urls字段(这可以通过IMAGES_URLS_FIELD设置覆盖),下载的图像的文件名将被设置为新的图像字段(这可以通过IMAGES_RESULT_FIELD设置来覆盖)。您可以通过设置IMAGES_MIN_WIDTH和IMAGES_MIN_HEIGHT过滤掉较小的图像。IMAGES_EXPIRES确定图像在到期之前将保存在缓存中的天数。对于缩略图生成,IMAGES_THUMBS设置可让您定义一个或多个缩略图以及其尺寸

#其他媒
FILES_STORE确定文件下载的位置,FILES_EXPIRES确定文件保留的天数。该FILES_URLS_FIELD和FILES_RESULT_FIELD设置有类似的功能,其IMAGES_ *同行。文件和图像管道可以同时处于活动状态而不会发生冲突。

ITEM_PIPELINES = {
...
'scrapy.pipelines.images.ImagesPipeline': 1,
}
IMAGES_STORE = 'images'
IMAGES_THUMBS = { 'small': (30, 30) }

Amazon Web Services

使用代理服务器

posted @ 2017-12-13 10:26  不可叽叽歪歪  阅读(105)  评论(0编辑  收藏  举报