爬虫--scrapy之crawlspider
crawlspider和spider的区别
crawlspider创建爬虫文件的命令:
scrapy genspider 爬虫文件名-t crawl www.xxx.com
spider创建爬虫文件的命令:
scrapy genspider 爬虫文件名 www.xxx.com
crawlspider可以直接进行全站数据爬取,
spider可以通过scrapy Request进行手动发起请求,进行全站数据爬取
crawlspider创建爬虫文件后,爬虫文件会出现Link链接提取器和Rule规则解析器
rules = (
Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
)
将上面的分来来是(link是链接提取器,rules是规则解析器):
link = LinkExtractor(allow=r'Items/')
rules = (
Rule(link, callback='parse_item', follow=True),
)
link链接提取器,allow后面跟的需要解析的rule,,是按正则规则来进行提取需要的链接
rules是规则解析器,callback是对数据进行解析的函数,follow是True的话是对数据进行深度爬取.
注意:
一个链接提取器对应唯一一个规则解析器

浙公网安备 33010602011771号