爬虫框架--scrapy的初步认识

一.介绍

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

二.安装

#在window系统中打开cmd:pip install scrapy

#可能出现的错误:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools


#解决方法:
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 
下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位

#下载好文件后把文件存到一个目录下:
#执行命令:pip install C:\tw\Twisted-17.5.0-cp36-cp36m-win_amd64.whl(文件的路径)



#安装完成后:重新执行命令:pip install scrapy

三.基本使用

1.第一步:

先切换到你要创建的目录中去

2.第二步:

创建项目

3.项目目录的介绍

 

 4.由于scrapy不允许在IDE中调试,为了能够在IDE中调试,我们可以在根目录下新建一个py文件叫:entrypoint.py;在里面写入以下内容:

from scrapy.cmdline import execute
execute(['scrapy','crawl','chouti'])

注意!!!第二行中代码中的前两个参数是不变的,第三个参数请使用自己的spider的名字

 

posted @ 2018-01-17 19:55  明-少  阅读(94)  评论(0)    收藏  举报