scrapy框架学习（二）项目创建及seting基本配置

项目创建

1.创建项目

1.创建项目：进入要创建项目的目录，并在终端内输入命令 scrapy startproject 项目名

2.创建爬虫文件：进入创建的爬虫项目目录，并在终端内输入命令 scrapy genspider 爬虫名域名

3.项目目录结构

myfirst_scrapyDemo
　　myfirst_scrapyDemo 真正的项目文件
　　　　__pycache__ // 缓存文件夹，存放编译好的字节码文件
　　　　spiders //爬虫文件存放的地方
　　　　　　__pycache__ //缓存文件夹，存放编译好的字节码文件
　　　　　　__init__.py //包的标志
　　　　　　spider_QiuShi.py //爬虫文件（*），此文件要执行第2步操作后才会被创建，文件名即为输入的爬虫名，其余目录及文件均为第1步操作时创建
　　　　__init__.py //包的标志
　　　　items.py // 定义数据结构的地方（*）
　　　　middlewares.py //中间件
　　　　pipelines.py //管道文件（*）
　　　　settings.py //配置文件（*）
　　scrapy.cfg //项目基本配置文件，不用管

2.爬虫文件

spider_QiuShi.py

name: 爬虫名字
allowed_domains: 允许的域名
start_urls: 起始url
parse: 自动回调的解析内容函数

3.配置文件

settings.py

BOT_NAME：项目名

USER_AGENT：默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑

ROBOTSTXT_OBEY：是否遵循机器人协议，默认是true，需要改为false，否则很多东西爬不了

CONCURRENT_REQUESTS：最大并发数，很好理解，就是同时允许开启多少个爬虫线程

DOWNLOAD_DELAY：下载延迟时间，单位是秒，控制爬虫爬取的频率，根据你的项目调整，不要太快也不要太慢，默认是3秒，即爬一个停3秒，设置为1秒性价比较高，如果要爬取的文件较多，写零点几秒也行

COOKIES_ENABLED：是否保存COOKIES，默认关闭，开启可以记录爬取过程中的COKIE，非常好用的一个参数

ITEM_PIPELINES：项目管道，300为优先级，越低越爬取的优先度越高。需要使用管道存储数据时，此项必须打开。

posted on 2021-01-26 00:54 逐梦的猫阅读(222) 评论(0) 收藏举报

刷新页面返回顶部

scrapy框架学习（二）项目创建及seting基本配置

项目创建

1.创建项目

1.创建项目：进入要创建项目的目录，并在终端内输入命令 scrapy startproject 项目名

2.创建爬虫文件：进入创建的爬虫项目目录，并在终端内输入命令 scrapy genspider 爬虫名域名

3.项目目录结构

2.爬虫文件

3.配置文件

导航

公告

scrapy框架学习（二）项目创建及seting基本配置

项目创建

1.创建项目

1.创建项目：进入要创建项目的目录，并在终端内输入命令 scrapy startproject 项目名

2.创建爬虫文件：进入创建的爬虫项目目录，并在终端内输入命令 scrapy genspider 爬虫名 域名

3.项目目录结构

2.爬虫文件

3.配置文件

导航

公告

2.创建爬虫文件：进入创建的爬虫项目目录，并在终端内输入命令 scrapy genspider 爬虫名域名