爬虫_scrapy案例

打开一个cmd,输入

python -m pip install --upgrade pip

pip install wheel

pip install lxml

pip install twisted

pip install pywin32

pip install scrapy

 

然后输入

 

scrapy startproject 项目名

cd 项目名

scrapy genspider 爬虫名 域名

 

大致生成

 

打开文件settings.py  找到机器人协议

ROBOTSTXT_OBEY:是否遵循机器人协议,默认是true,需要改为false

 

 

DOWNLOAD_DELAY:下载延迟时间,单位是秒

 

 TEM_PIPELINES:项目管道,300为优先级,越低越爬取的优先度越高

 

DEFAULT_REQUEST_HEADERS:默认请求头

 

 

 确认需要的数据 items.py

 

 制作程序 

 

posted @ 2022-04-03 13:30  三重丶刘德华  阅读(44)  评论(0)    收藏  举报