数据挖掘_利用协程抓取

协程,又称微线程,纤程。英文名Coroutine。

协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。

子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。

所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。

子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不同。

协程看上去也是子程序,但执行过程中,在子程序内部可中断,然后转而执行别的子程序,在适当的时候再返回来接着执行。

注意,在一个子程序中中断,去执行其他子程序,不是函数调用,有点类似CPU的中断。

  摘自网上

 

协程与多线程的比较,可以参考下图

 

 

一般在Python讨论协程时,都会与生成器联系在一起

生成器是一个函数,主要特点是生成器在返回值是,不是使用return,而是使用yield关键字,在定义函数时,如果函数体中包含yield关键字,则该函数就被认为是一个生成器,对于这些基本概念,我们不做过多讨论

 

接下来我们首先要引入一个模块gevent,使用gevent异步库可以更加方便地实现基于协程的并发设计,在gevent中使用greenlet对象实现并发,greenlet就是协程,可以将其认为是一种轻量线程

 

首先安装这个模块,非常简单

pip3 install gevent

 

 

接下来,我们还是以之前当当图书的那个例子,进行测试

我们在这定义协程的主要函数

# -*- coding: utf-8 -*-
"""
Created on 2018/5/5 

@author: susmote
"""

import gevent
from gevent import monkey
monkey.patch_all()
import time
import mining_func


def gevent_test():
    start_time = time.time()
    page_range_list = [
        (1, 10),
        (11, 20),
        (21, 32),
    ]
    jobs = []
    for page_range in page_range_list:
        jobs.append(gevent.spawn(mining_func.get_urls_in_pages, page_range[0], page_range[1]))

    gevent.joinall(jobs)
    
    end_time = time.time()
    print("抓取时间:", end_time - start_time)
    return end_time - start_time

  关于这段代码,基本和之前定义多线程,多进程的过程相似,我不做过多无用的解释,只是提示一下,monkey.patch_all()这个是必须不能忘记加,如果没有这一句,程序将会变为依次顺序抓取,这样就会失去并发的能力

  gevent.spawn这段语句可以生成greenlet,gevent.joinall(jobs),也就是说他会阻塞程序的执行,直至所有的协程执行完毕

 

运行主函数如下

# -*- coding: utf-8 -*-
"""
Created on 2018/5/5 

@author: susmote
"""

from main_func import gevent_test

if __name__ == "__main__":
    gevent_test()

 

下面运行这段代码

 

最后运行时间

3.439 秒 

 

关于协程我讲的就是这些

 

posted @ 2018-05-05 11:14  Loyio  阅读(330)  评论(0编辑  收藏  举报

Copyright ©2018 susmote 版权所有

官方博客 www.susmote.com