Python scrapy项目使用

scrapy项目:

1.scrapy使用:
1.1.创建爬虫的项目:

在创建scrapy项目的时候,项目名不能用数字开头,也不能包含汉字
pycharm终端执行命令:
命令:
scrapy startproject 项目的名字

1.2.创建爬虫文件:

进入爬虫文件目录:
要在spiders文件夹里面创建爬虫文件
cd 项目的名字\项目的名字\spiders
命令:
cd scrapy_baidu_01\scrapy_baidu_01\spiders

创建爬虫文件命令:
scrapy genspider 爬虫文件的名字 要爬取网页
命令:
scrapy genspider baidu www.baidu.com
一般情况下,不需要加http协议

1.3.运行爬虫文件命令(在spiders下运行命令):
scrapy crawl 爬虫的名字 (之前提到的 爬虫的名字)
命令:
scrapy crawl baidu
注意robots协议:
# 一般大的网站需要遵守
# 注释掉之后,就不遵守robots协议了,他是一个君子协议,一般情况下,我们不用遵守
# ROBOTSTXT_OBEY = True

posted @ 2022-11-05 23:56  kuaiquxie  阅读(38)  评论(0)    收藏  举报