scrapy 请求传参

有时候，我们爬取的数据不在同一个页面中，例如，我们爬取qiushibaike，qiushibaik的标题，作者在首页，而要爬取的段子详情在另一个页面。这时我们就需要用到请求传参。
请求传参的使用场景
当我们使用爬虫爬取的数据没有存在于同一张页面的时候，则必须使用请求传参

爬虫文件

import scrapy
from learn_scrapy.items import LearnScrapyItem

class ArgGiveSpider(scrapy.Spider):
    name = 'arg_give'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://www.qiushibaike.com/']

    home_url = 'https://www.qiushibaike.com/8hr/page/%s/'
    page_num = 1

    # response 是详情页的内容
    def parse_detail(self, response):
        # 拿到item
        item =response.meta['item']
        date = response.xpath('//*[@id="content"]/div/div[2]/div[1]/span[1]/text()').extract_first()
        item['detail_date'] = date
        yield item

    def parse(self, response):
        li_list = response.xpath('//*[@id="content"]/div/div[2]/div/ul/li')
        for li in li_list:
            title = li.xpath('./div/a/text()')[0].extract()
            author = li.xpath('./div/div/a/span/text()')[0].extract()
            detail_url = 'https://www.qiushibaike.com' + li.xpath('./a/@href').extract_first()
            

            item = LearnScrapyItem()
            item['title'] = title
            item['author'] = author

            #对详情页发请求获取详情页的页面源码数据
            #请求传参：meta={}，可以将meta字典传递给请求对应的回调函数
            yield scrapy.Request(detail_url, callback=self.parse_detail, meta={'item':item})


            # 分页操作
            if self.page_num <= 6:
                new_home_url = format(self.home_url % self.page_num)
                self.page_num += 1

                yield scrapy.Request(new_home_url, callback=self.parse) 



            # yield item # 提交item到管道进行持久化

posted @ 2020-07-27 15:59 bibicode 阅读(280) 评论(0) 收藏举报

刷新页面返回顶部