如何使用Scrapy 搭建一个爬虫项目

一、什么是Scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 [1]

二、为什么要使用Scrapy

和requests库对比

Requests Scrapy
功能库 框架
并发性能不足,性能较差 并发性好,性能较高
页面级别爬虫 网站级别爬虫
重点在于页面下载 重点在于爬虫结构

三、为什么Scrapy要使用命令行模式

  1. 命令行更容易实现自动化,适合脚本控制
  2. 实际上,Scrapy是给程序员用的,功能比界面更重要

四、Scrapy常用命令

命令 说明 命令行
startproject 创建一个新工程 scrapy startproject 工程名
genspider 创建一个爬虫 scrapy genspider 爬虫名 目标网站
crawl 运行一个爬虫 scrapy crawl 爬虫名

注意:目标网站为去掉“http://www.”之后的内容。

五、使用Scrapy步骤

  1. 安装scrapy ,进入cmd

    pip install Scrapy
    
  2. 创建一个scrapy项目

    scrapy startproject study_scrapy
    

  3. 首先进入这个目录,再创建一个爬虫(如:我爬取51job网站)

    scrapy genspider Job51 51job.com
    

  4. 运行

    scrapy crawl 爬虫名
    

至此如何使用Scrapy框架搭建一个爬虫就结束了。


posted @ 2020-04-14 13:24  宇宙砍柴人  阅读(281)  评论(0编辑  收藏  举报