Scrapy 笔记（三）

摘抄自Python

一、随机user-agent 的设置

关于配置和代码

这里我找了一个之前写好的爬虫，然后实现随机更换User-Agent，在settings配置文件如下：

DOWNLOADER_MIDDLEWARES = {
    'jobboleSpider.middlewares.RandomUserAgentMiddleware': 543,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

RANDOM_UA_TYPE= 'random'

这里我们要将系统的UserAgent中间件设置为None，这样就不会启用，否则默认系统的这个中间会被启用
定义RANDOM_UA_TYPE这个是设置一个默认的值，如果这里不设置我们会在代码中进行设置，在middleares.py中添加如下代码：

class RandomUserAgentMiddleware(object):
    '''
    随机更换User-Agent
    '''
    def __init__(self,crawler):
        super(RandomUserAgentMiddleware, self).__init__()
        self.ua = UserAgent()
        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')

    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler)

    def process_request(self,request,spider):

        def get_ua():
            return getattr(self.ua,self.ua_type)
        request.headers.setdefault('User-Agent',get_ua())

上述代码的一个简单分析描述：
1. 通过crawler.settings.get来获取配置文件中的配置，如果没有配置则默认是random，如果配置了ie或者chrome等就会获取到相应的配置
2. 在process_request方法中我们嵌套了一个get_ua方法，get_ua其实就是为了执行ua.ua_type，但是这里无法使用self.ua.self.us_type，所以利用了getattr方法来直接获取，最后通过request.heasers.setdefault来设置User-Agent

通过上面的配置我们就实现了每次请求随机更换User-Agent

posted @ 2017-10-26 22:33 _Undo 阅读(211) 评论(0) 收藏举报