Scrapy爬虫的启动与暂停

当我们使用Scrapy进行网站爬取的时候，无法避免的会出现爬虫暂停的情况，不用担心，Scrapy已经提供了这个功能。

在启动爬虫命令的时候我们使用参数 -s (set的意思)，这会将本次爬虫运行的相关信息记录在001文件夹中，在爬虫暂停重新启动后会读取信息继续进行网站的爬取。所以一次完整的爬虫无论暂停几次，都只会使用同一个文件夹夹记录，如果记录文件不同或制定错误，都将会重头进行爬取。

scrapy crawl spider lagou -s JOBDIR=job_info/001

当然，我们也可以在settings.py 指定目录

DIR="job_info/001"

我们也可以在自定义到我们个人爬虫的个性化配置里。

    custom_settings = {
        "COOKIES_ENABLED": True
        "DIR": "job_info/001"  
    }

注意，此时我们无法在PYCharm中进行调试了，因为scrapy捕捉暂停信号为“Ctrl+C”（且只能操作一次，两次爬虫会被强制终止），所以我们最好使用CMD来进行操作。

posted @ 2021-07-12 15:18 何哈哈哈阅读(393) 评论(0) 收藏举报

刷新页面返回顶部