python 基础(十)

一、协程

协程,又称微线程。协程是一种用户态的轻量级线程。

协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈。因此:协程能保留上一次调用时的状态(即所有局部状态的一个特定组合),每个过程重入时,就相当于进入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置。

协程的好处:

无需线程上下文切换的开销

无需原子操作锁定及同步的开销

方便切换控制流,简化编程模型

高并发+高扩展+低成本:一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理。

协程的缺点:

无法利用多核资源:协程的本质是个单线程,它不能同时将单个CPU的多个核用上,协程需要和进程配合才能运行在多CPU上,当然我们日常所编写的绝大部分应用都没有这个必要,除非是cpu密集型应用。

进行阻塞(Blocking)操作(如IO时)会阻塞掉整个程序。

使用yield实现协程操作例子:

#!/usr/bin/python
#-*- conding:utf-8 -*-
import time,queue
def consumer(name):
    print("-->starting eating baozi...")
    while True:
        new_baozi = yield
        print("[%s] 在吃包子 %s " % (name,new_baozi))
def producer():
    r = person.__next__()
    r = person.__next__()
    n = 0
    while n < 5:
        n +=1
        person.send(n)
        person2.send(n)
        print("\033[32;1m[老板]\033[0m 在生产包子%s" %n)
if __name__ == '__main__':
    person = consumer("人1")
    person2 = consumer("人2")
    p = producer()
View Code

Greenlet

#!/usr/bin/env python
# --*- coding:utf8 -*-
from greenlet import  greenlet
def test1():
    print(12)
    gr2.switch()
    print(34)
    gr2.switch()
def  test2():
    print(56)
    gr1.switch()
    print(78)
    gr1.switch()

gr1 = greenlet(test1)
gr2 = greenlet(test2)
gr1.switch()
View Code

结果输出:

12
56
34
78

Gevent

Gevent是一个第三方库,可以轻松通过gevent实现并发同步或异步编程,在gevet中用到的主要模式是Greenlet,它是以C扩展模块形式接入Python的轻量级协程。Greenlet全部运行在主程序操作系统进程的内部,但它们被协作式的调整。

#!/usr/bin/env python
# --*- coding:utf8 -*-
import  gevent
def foo():
    print('Running in foo')
    gevent.sleep(0)
    print('Explicit context switch to foo again')

def bar():
    print('Explicit context to bar')
    gevent.sleep(0)
    print('Implicit context switch back to bar')
gevent.joinall([
    gevent.spawn(foo),
    gevent.spawn(bar),
])
View Code

同步与异步的性能区别

#!/usr/bin/env python
# --*- coding:utf8 -*-
import gevent
def task(pid):
    """Some non-deterministic task"""
    gevent.sleep(0.5)
    print('Task %s done' % pid)
def  syschronous():
    for i in range(1,10):
        task(i)
def asynchronous():
    threads = [gevent.spawn(task,i) for i in range(10)]
    gevent.joinall(threads)
print('Synchronous:')
syschronous()
print('Asynchronous:')
asynchronous()
View Code

上面的程序的重要部分是将task函数封装到Greenlet内部线程的gevent.spawn。初始化的greenlet列表放在数组threads中,此数组被传给gevent.joinall函数,后者阻塞当前流程,并执行所有给定的greenlet。执行流程只会在所有greenlet执行完后才会继续向下走。

遇到IO阻塞时会切换任务之[爬虫版]

#!/usr/bin/env python
# --*- coding:utf8 -*-
from urllib import request
import gevent,time
from gevent import monkey
monkey.patch_all() #把当前程序中的所有io操作都做上标记
def spider(url):
    print("GET:%s" % url)
    resp = request.urlopen(url)
    data = resp.read()
    print("%s bytes received from %s ..." % (len(data),url))
urls = [
    "https://www.python.org/",
    "https://www.yahoo.com/",
    "https://github.com/"
]
start_time = time.time()
for url in urls:
    spider(url)
print("同步耗时:",time.time() - start_time)

async_time_start = time.time()
gevent.joinall([
    gevent.spawn(spider,"https://www.python.org/"),
    gevent.spawn(spider,"https://www.yahoo.com/"),
    gevent.spawn(spider,"https://github.com/"),
])
start_time = time.time()
for url in urls:
    spider(url)
print("同步耗时:",time.time() - start_time)

async_time_start = time.time()
gevent.joinall([
    gevent.spawn(spider,"https://www.python.org/"),
    gevent.spawn(spider,"https://www.yahoo.com/"),
    gevent.spawn(spider,"https://github.com/"),
])
print("异步耗时",time.time() - async_time_start)
View Code

 二、sellect、poll、epoll三者的区别

select
select最早于1983年出现在4.2BSD中,它通过一个select()系统调用来监视多个文件描述符的数组,当select()返回后,该数组中就绪的文件描述符便会被内核修改标志位,使得进程可以获得这些文件描述符从而进行后续的读写操作。

select目前几乎在所有的平台上支持,其良好跨平台支持也是它的一个优点,事实上从现在看来,这也是它所剩不多的优点之一。

select的一个缺点在于单个进程能够监视的文件描述符的数量存在最大限制,在Linux上一般为1024,不过可以通过修改宏定义甚至重新编译内核的方式提升这一限制。

另外,select()所维护的存储大量文件描述符的数据结构,随着文件描述符数量的增大,其复制的开销也线性增长。同时,由于网络响应时间的延迟使得大量TCP连接处于非活跃状态,但调用select()会对所有socket进行一次线性扫描,所以这也浪费了一定的开销。

poll
poll在1986年诞生于System V Release 3,它和select在本质上没有多大差别,但是poll没有最大文件描述符数量的限制。

poll和select同样存在一个缺点就是,包含大量文件描述符的数组被整体复制于用户态和内核的地址空间之间,而不论这些文件描述符是否就绪,它的开销随着文件描述符数量的增加而线性增大。

另外,select()和poll()将就绪的文件描述符告诉进程后,如果进程没有对其进行IO操作,那么下次调用select()和poll()的时候将再次报告这些文件描述符,所以它们一般不会丢失就绪的消息,这种方式称为水平触发(Level Triggered)。

epoll
直到Linux2.6才出现了由内核直接支持的实现方法,那就是epoll,它几乎具备了之前所说的一切优点,被公认为Linux2.6下性能最好的多路I/O就绪通知方法。

epoll可以同时支持水平触发和边缘触发(Edge Triggered,只告诉进程哪些文件描述符刚刚变为就绪状态,它只说一遍,如果我们没有采取行动,那么它将不会再次告知,这种方式称为边缘触发),理论上边缘触发的性能要更高一些,但是代码实现相当复杂。

epoll同样只告知那些就绪的文件描述符,而且当我们调用epoll_wait()获得就绪文件描述符时,返回的不是实际的描述符,而是一个代表就绪描述符数量的值,你只需要去epoll指定的一个数组中依次取得相应数量的文件描述符即可,这里也使用了内存映射(mmap)技术,这样便彻底省掉了这些文件描述符在系统调用时复制的开销。

另一个本质的改进在于epoll采用基于事件的就绪通知方式。在select/poll中,进程只有在调用一定的方法后,内核才对所有监视的文件描述符进行扫描,而epoll事先通过epoll_ctl()来注册一个文件描述符,一旦基于某个文件描述符就绪时,内核会采用类似callback的回调机制,迅速激活这个文件描述符,当进程调用epoll_wait()时便得到通知。

posted @ 2016-10-13 17:19  chaishao  阅读(212)  评论(0)    收藏  举报