⑥ Scrapy库
持续学习中…..
安装scrapy框架:
- 通过
pip install scrapy
即可安装 - 如果在windows下,还需安装
pywin32
, 安装pip install pywin32
新建项目
在项目目录创建scrapy项目
cmd
scrapy startproject [项目名称]
创建爬虫
cmd
scrapy genspider [爬虫名称] '网站域名'
-
进入到项目里.cfg后缀文件的目录执行此命令
-
爬虫名称不要和项目名一样
-
网站域名是允许爬虫采集的域名
分析
-
创建爬虫后在spider文件会生成一个[爬虫名.py]文件
-
爬虫返回的数据
-
在此文件内写自己的代码,分析源码,数据清洗等
运行scrapy
去除控制台低于warning的日志
LOG_LEVEL = 'WARNING' # 日志设置
方法一: cmd
( 在项目页 )
scripy crawl [①项目名称]
方法二: 在项目根目录新建一个文件 (与.cfg文件同目录
from scrapy import cmdline
cmdline.execute(["scrapy", "crawl", "爬虫名称"])
// cmdline.execute("scrapy crawl 爬虫名称".spilt())
Scrapy生成的文件解释
settings.py
- 配置文件
pipelines.py
- 管道文件
items.py
- 目标文件
middlewares.py
- 中间件