Scrapy

初入scrapy

进入cmd，到我创建的文件夹E：spyder
创建一个项目例如：city_58
输入代码：scrapy startproject city_58
然后进入city_58项目目录下 cd city_58
开始创建爬虫程序 scrapy genspider example(程序名) example.com(要爬虫的网址)
scrapy genspider spider_city_58 58.com
完成

运行程序

用pycharm打开之前创建的文件夹
创建一个main.py
在main.py里输入：
from scrapy import cmdline

cmdline.execute('Scrapy crawl 爬虫名称')
最好括号里的内容用列表输入['scrapy','crawl','spider_city_58']

或者 ’scrapy crawl spider_city_58‘.split()

Scrapy中的item管道

作用：数据校验、数据去重、数据存储、清洗html

主要负责处理蜘蛛从网页中抽取的item，主要任务是清洗、验证和存储数据
页面被解析后，将被发送到item，经过几个特定的次序处理数据
每个item的组件都是由一个简单的方法组成的python类

process_item(self,item,spider)-------必须实现（用的最多的方法）

open_spider(self,spider)-----------爬虫启动时调用

close_spider(self,spider)-----------爬虫关闭时调用

posted @ 2020-04-20 10:23 Mario_ok 阅读(146) 评论(0) 收藏举报

刷新页面返回顶部