python爬虫---scrapy的基本语法

1.创建爬虫：

　　scrapy genspider爬虫名域名

　　注意：爬虫的名字不能和项目名相同

2.　　scrapy list --展示爬虫应用列表

　　　scrapy crawl爬虫应用名称 ---运行单独爬虫应用

　　　使用scrapy框架爬取糗事百科段子：

　　　　　　使用命令创建一个爬虫：

　　　　　　　scrapy gensipder qsbk ''qiushibaike.com''

　　　　　　创建一个名字叫做qsbk的爬虫，并且能爬取的网页只会限制在qiushibaike.com这个域名下。

3.　　name:这个爬虫的名字，名字必须是唯一的。

　　　allow_domains:允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名的网页会被自动忽略。

　　　　start_urls:爬虫从这个变量中的url开始。

　　　　parse：引擎会吧下载器下载回来的数据扔给爬虫解析，爬虫在吧数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。第二个是生产下一个请求的url.

posted @ 2019-04-17 16:59 魔仙小丽丽阅读(653) 评论(0) 编辑收藏举报

刷新页面返回顶部

魔仙小丽丽