scrapy settings2
Analysis
#Logging #Telnet #engine.pause() >>> engine.unpause() >>> engine.stop()
性能
#DOWNLOAD_TIMEOUT决定了下载器在取消请求之前等待的时间 #DOWNLOAD_DELAY设置修改此设置以应用更保守的下载速度 #CONCURRENT_REQUESTS设置要同时执行的最大请求数 #CONCURRENT_REQUESTS_PER_DOMAIN和CONCURRENT_REQUESTS_PER_IP #CONCURRENT_ITEMS设置可以同时处理的每个响应的最大项目数 #为了更快的DNS查找,内存中的DNS缓存默认通过 DNSCACHE_ENABLED 设置
停止抓取
scrapy crawl fast -s CLOSESPIDER_ITEMCOUNT=10 $ scrapy crawl fast -s CLOSESPIDER_PAGECOUNT=10 $ scrapy crawl fast -s CLOSESPIDER_TIMEOUT=10
HTTP缓存和脱机
爬行风格
DEPTH_PRIORITY = 1
DEPTH_LIMIT设置中设置最大深度,其中0表示无限制。可以通过DEPTH_PRIORITY设置根据深度为请求分配优先级
Feed
Feed可让您将Scrapy抓取的数据导出到本地文件系统或远程服务器
Feed的位置由FEED_URI确定
媒体下载
Image Pipeline下载媒体内容 IMAGES_STORE设置将存储图像的(使用相对路径会在项目中创建的根文件夹的目录)的目录。每个项目的图像的URL 应该在其image_urls字段(这可以通过IMAGES_URLS_FIELD设置覆盖),下载的图像的文件名将被设置为新的图像字段(这可以通过IMAGES_RESULT_FIELD设置来覆盖)。您可以通过设置IMAGES_MIN_WIDTH和IMAGES_MIN_HEIGHT过滤掉较小的图像。IMAGES_EXPIRES确定图像在到期之前将保存在缓存中的天数。对于缩略图生成,IMAGES_THUMBS设置可让您定义一个或多个缩略图以及其尺寸 #其他媒 FILES_STORE确定文件下载的位置,FILES_EXPIRES确定文件保留的天数。该FILES_URLS_FIELD和FILES_RESULT_FIELD设置有类似的功能,其IMAGES_ *同行。文件和图像管道可以同时处于活动状态而不会发生冲突。 ITEM_PIPELINES = { ... 'scrapy.pipelines.images.ImagesPipeline': 1, } IMAGES_STORE = 'images' IMAGES_THUMBS = { 'small': (30, 30) }