Scrapy

初入scrapy

  1. 进入cmd,到我创建的文件夹E:spyder
  2. 创建一个项目 例如:city_58
  3. 输入代码:scrapy startproject city_58
  4. 然后进入city_58项目目录下 cd city_58
  5. 开始创建爬虫程序 scrapy genspider example(程序名) example.com(要爬虫的网址)
  6. scrapy genspider spider_city_58 58.com
  7. 完成

运行程序

  1. 用pycharm打开之前创建的文件夹

  2. 创建一个main.py

  3. 在main.py里输入:

  4. from scrapy import cmdline

    cmdline.execute('Scrapy crawl 爬虫名称')

  5. 最好括号里的内容用列表输入['scrapy','crawl','spider_city_58']

    或者 ’scrapy crawl spider_city_58‘.split()

Scrapy中的item管道

作用:数据校验、数据去重、数据存储、清洗html

  1. 主要负责处理蜘蛛从网页中抽取的item,主要任务是清洗、验证和存储数据
  2. 页面被解析后,将被发送到item,经过几个特定的次序处理数据
  3. 每个item的组件都是由一个简单的方法组成的python类

process_item(self,item,spider)-------必须实现(用的最多的方法)

open_spider(self,spider)-----------爬虫启动时调用

close_spider(self,spider)-----------爬虫关闭时调用

posted @ 2020-04-20 10:23  Mario_ok  阅读(146)  评论(0)    收藏  举报