Scrapy学习(一) Scrapy下载与框架搭建
Scrapy下载与框架搭建
Scrapy作为一种爬虫框架,并不是能够拓展你能够爬取的范围,而是对大项目的扩展性,运行速度等有所提升,能够在更短的时间内部署一个结构更完整的爬虫。由于本人仍在学习Scrapy,本篇类似于笔记性质的文章仅作参考,若有任何不周之处还请指出。
另外,如果对Python爬虫不熟悉,建议先去学习requests+selenium两个库,如果对于Python还不熟悉,那建议从Python入门开始学习
Scrapy安装
安装Scrapy可以非常简单,一般情况下可以直接通过pip进行安装:
pip install scarpy
⚠️⚠️⚠️
如果你的安装出现了问题,可以进行手动安装:
首先需要安装lxml
pip install lxml:
再安装pyOpenSSL、Twisted 以及 PyWin32,最后再安装Scrapy
另外,记得把Scrapy的位置加入环境变量
在Scrapy安装完成后,打开cmd输入"scrapy"可以进行测试,如果相应如下图则安装配置成功。
Scrapy框架搭建
在Scrapy安装完成之后,可以在cmd中搭建这个框架。按win+R
输入cmd运行,打开命令行窗口。
当然,如果你想要切换工作目录到指定位置,可以按住shift
右键文件夹,选择“在终端中打开”,则可以在你想要创建框架的位置打开命令行窗口:

打开命令行窗口后,输入scrapy startproject [项目名称]
这里采用有趣网址之家网站作为例子(仅供研究教学使用),所以项目名称为yqwz,如图:
可以看到,命令行有了这样的提示:
You can start your first spider with:
cd yqwz
scrapy genspider example example.com
在此使用cd yqwz
切换工作目录,进入 sample\yqwz 目录:
接着可使用scrapy genspider [爬虫名称] [爬虫限制网站]
自动生成爬虫文件
此处使用:scrapy genspider yq youquhome.com
创建
⚠️注意:创建的这个爬虫文件不能和项目有相同的名字
至此,项目框架便以及搭建完成了。