爬虫框架--scrapy的初步认识
一.介绍
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
二.安装
#在window系统中打开cmd:pip install scrapy #可能出现的错误:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools #解决方法: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件(如我的Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl),cp后面是python版本,amd64代表64位 #下载好文件后把文件存到一个目录下: #执行命令:pip install C:\tw\Twisted-17.5.0-cp36-cp36m-win_amd64.whl(文件的路径) #安装完成后:重新执行命令:pip install scrapy
三.基本使用
1.第一步:
先切换到你要创建的目录中去

2.第二步:
创建项目

3.项目目录的介绍

4.由于scrapy不允许在IDE中调试,为了能够在IDE中调试,我们可以在根目录下新建一个py文件叫:entrypoint.py;在里面写入以下内容:
from scrapy.cmdline import execute execute(['scrapy','crawl','chouti'])
注意!!!第二行中代码中的前两个参数是不变的,第三个参数请使用自己的spider的名字

浙公网安备 33010602011771号