Scrapy爬虫的启动与暂停
当我们使用Scrapy进行网站爬取的时候,无法避免的会出现爬虫暂停的情况,不用担心,Scrapy已经提供了这个功能。
在启动爬虫命令的时候我们使用参数 -s (set的意思),这会将本次爬虫运行的相关信息记录在001文件夹中,在爬虫暂停重新启动后会读取信息继续进行网站的爬取。所以一次完整的爬虫无论暂停几次,都只会使用同一个文件夹夹记录,如果记录文件不同或制定错误,都将会重头进行爬取。
scrapy crawl spider lagou -s JOBDIR=job_info/001
当然,我们也可以在settings.py 指定目录
DIR="job_info/001"
我们也可以在自定义到我们个人爬虫的个性化配置里。
custom_settings = { "COOKIES_ENABLED": True "DIR": "job_info/001" }
注意,此时我们无法在PYCharm中进行调试了,因为scrapy捕捉暂停信号为“Ctrl+C”(且只能操作一次,两次爬虫会被强制终止),所以我们最好使用CMD来进行操作。

浙公网安备 33010602011771号