Scrapy
初入scrapy
- 进入cmd,到我创建的文件夹E:spyder
- 创建一个项目 例如:city_58
- 输入代码:scrapy startproject city_58
- 然后进入city_58项目目录下 cd city_58
- 开始创建爬虫程序 scrapy genspider example(程序名) example.com(要爬虫的网址)
- scrapy genspider spider_city_58 58.com
- 完成
运行程序
-
用pycharm打开之前创建的文件夹
-
创建一个main.py
-
在main.py里输入:
-
from scrapy import cmdline
cmdline.execute('Scrapy crawl 爬虫名称')
-
最好括号里的内容用列表输入['scrapy','crawl','spider_city_58']
或者 ’scrapy crawl spider_city_58‘.split()
Scrapy中的item管道
作用:数据校验、数据去重、数据存储、清洗html
- 主要负责处理蜘蛛从网页中抽取的item,主要任务是清洗、验证和存储数据
- 页面被解析后,将被发送到item,经过几个特定的次序处理数据
- 每个item的组件都是由一个简单的方法组成的python类
process_item(self,item,spider)-------必须实现(用的最多的方法)
open_spider(self,spider)-----------爬虫启动时调用
close_spider(self,spider)-----------爬虫关闭时调用

浙公网安备 33010602011771号