Python scrapy项目使用
scrapy项目:
1.scrapy使用:
1.1.创建爬虫的项目:
在创建scrapy项目的时候,项目名不能用数字开头,也不能包含汉字
pycharm终端执行命令:
命令:
scrapy startproject 项目的名字
1.2.创建爬虫文件:
进入爬虫文件目录:
要在spiders文件夹里面创建爬虫文件
cd 项目的名字\项目的名字\spiders
命令:
cd scrapy_baidu_01\scrapy_baidu_01\spiders
创建爬虫文件命令:
scrapy genspider 爬虫文件的名字 要爬取网页
命令:
scrapy genspider baidu www.baidu.com
一般情况下,不需要加http协议
1.3.运行爬虫文件命令(在spiders下运行命令):
scrapy crawl 爬虫的名字 (之前提到的 爬虫的名字)
命令:
scrapy crawl baidu
注意robots协议:
# 一般大的网站需要遵守
# 注释掉之后,就不遵守robots协议了,他是一个君子协议,一般情况下,我们不用遵守
# ROBOTSTXT_OBEY = True

浙公网安备 33010602011771号