Scrapy中Selenium的应用

描述

1. 为什么要用selenium ? 
	在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据,则必须使用selenium创建浏览器对象,然后通过该浏览器对象进行请求发送,获取动态加载的数据值。

案例分析

- 需求: 爬取网易新闻的国内板块下的新闻数据

- 需求分析: 当点击国内超链进入国内对应的页面时,会发现当前页面展示的新闻数据是被动态加载出来的,如果直接通过程序对url进行请求,是获取不到动态加载出的新闻数据的。则就需要我们使用selenium实例化一个浏览器对象,在该对象中进行url的请求,获取动态加载的新闻数据。

- 原理分析: 当引擎将国内板块url对应的请求提交给下载器后,下载器进行网页数据的下载,然后将下载到的页面数据,封装到response中,提交给引擎,引擎将response在转交给Spiders。Spiders接受到的response对象中存储的页面数据里是没有动态加载的新闻数据的。要想获取动态加载的新闻数据,则需要在下载中间件中对下载器提交给引擎的response响应对象进行拦截,切对其内部存储的页面数据进行篡改,修改成携带了动态加载出的新闻数据,然后将被篡改的response对象最终交给Spiders进行解析操作。

selenium在scrapy中使用流程

1) 重写爬虫文件的构造方法,在该方法中使用selenium实例化一个浏览器对象(浏览器对象只需要被实例化一次)

2) 重写爬虫文件的closed(self,spider)方法,在其内部关闭浏览器对象。该方法是在爬虫结束时被调用

3) 重写下载中间件的process_response方法,让该方法对响应对象进行拦截,并篡改response中存储的页面数据

4) 在配置文件中开启下载中间件

示例代码

爬虫文件以及构造selenium

# -*- coding: utf-8 -*-
import scrapy
from NewsPro.items import NewsproItem
from selenium import webdriver


class NewsSpider(scrapy.Spider):
    name = 'news'
    def __init__(self):
        # 实例化浏览器对象 (实例化一次)
    	bro = webdriver.Chrome(executable_path='.\chromedriver.exe'
    # 放置的就是四个板块对应的详情页的url
    model_urls = []
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com/']

    # 解析新闻中具体内容, 接受传递的item对象
    def parse_content(self, response):
        item = response.meta['item']
        content_list = response.xpath('//div[@id="endText"]//text()').extract()
        # extract返回的是列表,列表中存储的是字符串
        item['new_content'] = ''.join(content_list).replace('\xa0', '')
        yield item

    # 解析板块对应页面中的新闻数据
    def parse_detail(self, response):
        div_list = response.xpath('//div[@class="ndi_main"]/div')

        for div in div_list:
            item = NewsproItem()
            new_title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
            new_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()
            item['new_title'] = new_title
            yield scrapy.Request(url=new_url, callback=self.parse_content, meta={'item': item})

    # 解析要爬取的四个板块的url地址
    def parse(self, response):
        # 只有在取文本或者取属性的时候才需要在path中调用extract操作
        li_list = response.xpath('//div[@class="bd"]/div/ul/li')
        li_index = [3, 4]
        for num in li_index:
            model_url = li_list[num].xpath('./a/@href').extract_first()
            self.model_urls.append(model_url)
            yield scrapy.Request(url=model_url, callback=self.parse_detail)
	
    # 关闭浏览器
    def closed(self, spider):
        self.bro.quit()

下载中间件process_response方法

import time
from scrapy.http import HtmlResponse

class NewsproDownloaderMiddleware(object):

    def process_request(self, request, spider):
        return None

    def process_response(self, request, response, spider):
        # 找出指定的响应对象进行处理操作, 可以根据指定的请求对象定位到指定的响应对象
        # 指定的请求对象可以通过请求的url进行定位
        model_urls = spider.model_urls    # 拿取爬虫文件中的spider.url
        bro = spider.bro
        if request.url in model_urls:
            bro.get(request.url)
            time.sleep(2)
            js = 'window.scrollTo(0,document.body.scrollHeight)'
            bro.execute_script(js)
            time.sleep(2)
            page_text = bro.page_source
            
            # 手动创建一个新的响应对象,将page_text作为响应数据封装到改响应对象中(body为响应数据)
            return HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)

        return response
	
    def process_exception(self, request, exception, spider):
        pass

    
# 通过指定的url就定位到了指定的request
# 通过指定的request定位到指定的response(不符合需求的要求)
# 自己手动的创建四个符合需求要求的新的响应对象(需要将符合要求的响应数据存储放置到新的响应对象中)
# 使用新的响应对象替换原来原始的响应对象

配置文件

DOWNLOADER_MIDDLEWARES = {
   'NewsPro.middlewares.NewsproDownloaderMiddleware': 543,
}

管道持久化存储

from aip import AipNlp
import pymysql

class NewsproPipeline(object):
    APP_ID = '16205930'
    API_KEY = 'i8RgQ4vHgLv2nsoTGhgLplX9'
    SECRET_KEY = '7aRwqzaG1YhQPhCHMtVtEsA5VxnPAfNw'
    client = AipNlp(APP_ID, API_KEY, SECRET_KEY)

    conn = None
    cursor = None

    def open_spider(self, spider):
        self.conn = pymysql.Connect(host='127.0.0.1', port=3306, user='root', password='123', db='ai')

    def process_item(self, item, spider):
        title = item['new_title']
        content = item['new_content']
        
        dic = self.client.keyword(title, content)
        keywords = dic['items']
        if keywords:
            keyword = dic['items'][0]["tag"]
        else:
            keyword = "没有值"
            
        dic1 = self.client.topic(title, content)
        types = dic1['item']['lv2_tag_list']
        if types:
            type1 = dic1['item']['lv2_tag_list'][0]['tag']
        elif dic1['item']['lv1_tag_list']:
            type1 = dic1['item']['lv1_tag_list'][0]['tag']
        else:
            type1 = "空值"
            
        self.cursor = self.conn.cursor()
        try:
            self.cursor.execute('insert into t1 values ("%s","%s","%s","%s")' % (title, content, keyword, type1))
            self.conn.commit()
        except Exception as e:
            print(e)
            self.conn.rollback()
        return item

    def close_spider(self, spider):
        print('爬取完成')
        self.cursor.close()
        self.conn.close()
posted @ 2019-06-27 10:19  言值  阅读(703)  评论(0编辑  收藏  举报