爬虫框架--scrapy的初步认识

一.介绍

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

二.安装

#在window系统中打开cmd：pip install scrapy

#可能出现的错误：error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools


#解决方法：
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 
下载twisted对应版本的whl文件（如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl），cp后面是python版本，amd64代表64位

#下载好文件后把文件存到一个目录下：
#执行命令：pip install C:\tw\Twisted-17.5.0-cp36-cp36m-win_amd64.whl（文件的路径）



#安装完成后：重新执行命令：pip install scrapy

三.基本使用

1.第一步：

先切换到你要创建的目录中去

2.第二步：

创建项目

3.项目目录的介绍

4.由于scrapy不允许在IDE中调试，为了能够在IDE中调试，我们可以在根目录下新建一个py文件叫：entrypoint.py；在里面写入以下内容：

from scrapy.cmdline import execute
execute(['scrapy','crawl','chouti'])

注意！！！第二行中代码中的前两个参数是不变的，第三个参数请使用自己的spider的名字

posted @ 2018-01-17 19:55 明-少阅读(94) 评论(0) 收藏举报

刷新页面返回顶部

明-少

爬虫框架--scrapy的初步认识

一.介绍

二.安装

三.基本使用

公告