scrapy框架学习(二)项目创建及seting基本配置

项目创建

1.创建项目

1.创建项目:进入要创建项目的目录,并在终端内输入命令 scrapy startproject 项目名

2.创建爬虫文件:进入创建的爬虫项目目录,并在终端内输入命令  scrapy genspider 爬虫名 域名

3.项目目录结构

myfirst_scrapyDemo
  myfirst_scrapyDemo 真正的项目文件
    __pycache__                                // 缓存文件夹,存放编译好的字节码文件
    spiders                                          //爬虫文件存放的地方
      __pycache__                         //缓存文件夹,存放编译好的字节码文件
      __init__.py                             //包的标志
      spider_QiuShi.py                   //爬虫文件(*),此文件要执行第2步操作后才会被创建,文件名即为输入的爬虫名,其余目录及文件均为                                                                        第1步操作时创建
    __init__.py                                    //包的标志
    items.py                                        // 定义数据结构的地方(*)
    middlewares.py                            //中间件
    pipelines.py                                  //管道文件(*)
    settings.py                                    //配置文件(*)
  scrapy.cfg                                            //项目基本配置文件,不用管

 

2.爬虫文件

spider_QiuShi.py 

name: 爬虫名字
allowed_domains: 允许的域名
start_urls: 起始url
parse: 自动回调的解析内容函数

3.配置文件

settings.py 

 

BOT_NAME:项目名

USER_AGENT:默认是注释的,这个东西非常重要,如果不写很容易被判断为电脑

ROBOTSTXT_OBEY:是否遵循机器人协议,默认是true,需要改为false,否则很多东西爬不了

 CONCURRENT_REQUESTS:最大并发数,很好理解,就是同时允许开启多少个爬虫线程

DOWNLOAD_DELAY:下载延迟时间,单位是秒,控制爬虫爬取的频率,根据你的项目调整,不要太快也不要太慢,默认是3秒,即爬一个停3秒,设置为1秒性价比较高,如果要爬取的文件较多,写零点几秒也行

COOKIES_ENABLED:是否保存COOKIES,默认关闭,开启可以记录爬取过程中的COKIE,非常好用的一个参数

ITEM_PIPELINES:项目管道,300为优先级,越低越爬取的优先度越高。需要使用管道存储数据时,此项必须打开。

 

posted on 2021-01-26 00:54  逐梦的猫  阅读(222)  评论(0)    收藏  举报

导航