摘要:        
先说明一下五大组件各自的作用: 引擎(Scrapy) 用来完成整个系统的数据流处理,触发事务(框架核心)。 调度器(Scheduler) 包括两部分:过滤器和队列,用来接受引擎发过来的请求,先经过过滤器对请求进行去重,然后压入队列中,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列,由它    阅读全文
posted @ 2022-01-26 16:40
Sunshine_y
阅读(394)
评论(0)
推荐(0)
        
            
        
        
摘要:        
方法一:基于终端指令 说明:只可以将parse()的返回值存储到本地的文件中,而且存储的文本文件的类型只能为:'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle' 指令:终端输入命令,scrapy crawl xxx -o file    阅读全文
posted @ 2022-01-26 16:25
Sunshine_y
阅读(53)
评论(0)
推荐(0)
        
                    
                
浙公网安备 33010602011771号