Python并发编程之多进程

一 什么是进程

进程就是一个程序在一个数据集上的一次动态执行过程,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。进程的组成:

程序:用来描述进程要完成哪些功能以及如何完成

数据集:程序在执行过程中所需要使用的资源

进程控制块:用来记录进程的外部特征,描述进程的执行变化过程,系统可以利用它来控制和管理进程,它是系统感知进程存在的唯一标志

我们可以这样来理解:程序并不能单独运行,只有将程序装载到内存中,系统为它分配资源才能运行,而这种执行的程序就称之为进程,它是对正在运行程序的一个抽象

在多道编程中,我们允许多个程序同时加载到内存中,在操作系统的调度下,可以实现并发地执行。这样的设计,大大提高了CPU的利用率。进程的出现让每个用户感觉到自己独享CPU,因此,进程就是为了在CPU上实现多道编程而提出的。

进程的概念起源于操作系统,是操作系统最核心的概念,也是操作系统提供的最古老也是最重要的抽象概念之一。操作系统的其他所有内容都是围绕进程的概念展开的。

关系操作系统可参考另一篇文章:计算机基础之操作系统

二  进程与程序的区别

程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次执行活动,属于动态概念。

需要强调的是:同一个程序执行两次,那就是两个进程,比如:一个播放软件,虽然都是同一个软件,但是一个可以播放电影1,一个可以播放电影2

三 串行、并行和并发

串行:串行(serial)与并行(parallel)相对应,是指的我们从事某项工作时一个步骤一个步骤的去实施

并行:是计算机系统中能同时执行两个或更多个处理的一种计算方法。它可以同时工作于同一程序的不同方面。并行处理的主要目的是节省大型和复杂问题的解决时间,前提得是具备多个CPU

并发:并发(concurrency Processing)指一个时间段内有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机(CPU)上运行,但任一时刻点上只有一个程序在处理机(CPU)上运行。单核时我们可以利用多道技术实现

并发的关键:有处理多个任务的能力,不一定要同时

并行的关键:有同时处理多个任务的能力。所以说,并行是并发的子集

四 同步\异步&阻塞\非阻塞(重点)

同步:指一个进程在执行某个请求的时候,若该请求需要一段时间才能返回信息,那么这个进程将会一直等待下去,直到收到返回信息才继续执行下去

异步:指进程不需要一直等下去,而是继续执行下面的操作,不管其他进程的状态。当有消息返回时系统会通知进程进行处理,这样可以提高执行的效率

阻塞:指调用结果返回之前,当前线程会被挂起(如遇到io操作),函数只有在得到结果之后才会将阻塞的线程激活

非阻塞:指在不能立刻得到结果之前也会立刻返回,同时该函数不会阻塞当前线程

说明:

1.  同步与异步针对的是函数/任务的调用方式:同步就是当一个进程发起一个函数(任务)调用的时候,一直等到函数(任务)完成,而进程继续处于激活状态。而异步情况下是当一个进程发起一个函数(任务)调用的时候,不会等函数返回,而是继续往下执行当,函数返回的时候通过状态、通知、事件等方式通知进程任务完成。

2.  阻塞与非阻塞针对的是进程或线程:阻塞是当请求不能满足的时候就将进程或线程挂起,而非阻塞则不会阻塞当前进程或线程

下面举个例子,让我们更好的理解:

同步调用:调用一个函数执行1~100000000000的累加任务,该调用会一直等待,直到任务返回结果为止,但并未阻塞住(即便是被抢走cpu的执行权限,那也是处于就绪态)

阻塞调用:当socket工作在阻塞模式的时候,如果没有数据的情况下调用recv函数,则当前线程就会被挂起,直到有数据为止

更多进程相关理论知识可参考:http://www.cnblogs.com/linhaifeng/articles/7430066.html

五 multiprocessing模块

由于GIL的存在,python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大部分情况需要使用多进程。Python提供了multiprocessing。

multiprocessing模块用来开启子进程,并在子进程中执行我们定制的任务(比如函数),该模块与多线程模块threading的编程接口类似。

multiprocessing模块的功能众多:支持子进程、通信和共享数据、执行不同形式的同步,提供了Process、Queue、Pipe、Lock等组件。

需要再次强调的是:与线程不同,进程没有任何共享状态,进程修改的数据、改动仅限于该进程内。

5.1 Process类

构造方法:

Process([group [, target [, name [, args [, kwargs]]]]])
  group: 线程组,目前还没有实现,库引用中提示必须是None
  target: 要执行的方法
  name: 进程名
  args/kwargs: 要传入方法的参数

强调:

  1. 需要使用关键字的方式来指定参数
  2. 采用args为target函数指定位置参数,是一个元组形式,必须有逗号

实例方法:

p.start():启动进程,并调用该子进程中的p.run() 
p.run():进程启动时运行的方法,正是它去调用target指定的函数,我们自定义类的类中一定要实现该方法  
p.terminate():强制终止进程p,不会进行任何清理操作,如果p创建了子进程,该子进程就成了僵尸进程,使用该方法需要特别小心这种情况。如果p还保存了一个锁那么也将不会被释放,进而导致死锁
p.is_alive():如果p仍然运行,返回True
p.join([timeout]):主线程等待p终止(强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间,需要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程  

属性:

p.daemon:默认值为False,如果设为True,代表p为后台运行的守护进程,当p的父进程终止时,p也随之终止,并且设定为True后,p不能创建自己的新进程,必须在p.start()之前设置
p.name:进程的名称
p.pid:进程的pid
p.exitcode:进程在运行时为None、如果为–N,表示被信号N结束(了解即可)
p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性,这类连接只有在具有相同的身份验证键时才能成功(了解即可)

说明:以上p代表一个Process实例对象

5.2 Process类的使用

写在前面:在windows中Process()必须放到# if __name__ == '__main__':下

Since Windows has no fork, the multiprocessing module starts a new Python process and imports the calling module.
If Process() gets called upon import, then this sets off an infinite succession of new processes (or until your machine runs out of resources).
This is the reason for hiding calls to Process() inside if __name__ == "__main__"
since statements inside this if-statement will not get called upon import.
详细解释

创建子进程的两种方式

from multiprocessing import Process
import time

def run(name):  # 函数名可以自定义,与target匹配即可
    print('%s start' %name)
    time.sleep(1)
    print('%s end' %name)

if __name__ == '__main__':

    name_list = ['zhangsan', 'lisi', 'wangwu']
    for name in name_list:
        p = Process(target=run, args=(name,))   # 元组必须加逗号
        p.start()
    print('主')
方式一:Process类调用
from multiprocessing import Process
import time


class MyProcess(Process):

    def __init__(self, name):
        super().__init__()
        self.name = name

    def run(self):  # 函数名必须是run
        print('%s start' % self.name)
        time.sleep(1)
        print('%s end' % self.name)

if __name__ == '__main__':

    name_list = ['zhangsan', 'lisi', 'wangwu']
    for name in name_list:
        p = MyProcess(name)
        p.start()
    print('主')
方式二:继承Process类

进程之间的内存空间是隔离的

from multiprocessing import Process

n=100     # 在windows系统中应该把全局变量定义在if __name__ == '__main__'之上

def run():
    global n
    n=0
    print('子进程内: ',n)


if __name__ == '__main__':
    p = Process(target=run)
    p.start()
    print('主进程内: ',n)
View Code

Process对象的join方法

在主进程运行过程中如果想并发的执行其他的任务,我们可以开启子进程,此时主进程的任务与子进程的任务分两种情况:

情况1:在主进程的任务与子进程的任务彼此独立的的情况下,主进程的任务先执行完毕后,主进程还需要等待子进程执行完毕,然后统一回收资源;

情况2:如果主进程的任务再执行过到某一个阶段时,需要等待子进程执行完毕后才能继续执行,就需要有一种机制能够让主进程检测子进程是否运行完毕,在子进程执行完毕后才继续执行,否则一直在原地阻塞,这就是join方法的作用。

from multiprocessing import Process
import time
import random
import os

def run():
    print('%s start' %os.getpid())
    time.sleep(random.randrange(1,3))
    print('%s end' %os.getpid())

if __name__ == '__main__':
    p = Process(target=run)
    p.start()
    p.join()  # 等待p停止,才执行下一行代码
    print('主')

有了join,程序不就串行了吗?下面再看一个例子:

from multiprocessing import Process
import time
import random

def run(name):
    print('%s start' %name)
    time.sleep(random.randrange(1,3))
    print('%s end' %name)

if __name__ == '__main__':
    p1 = Process(target=run, args=('zhangsan',))
    p2 = Process(target=run, args=('lisi',))
    p3 = Process(target=run, args=('wangwu',))

    p1.start()
    p2.start()
    p3.start()

    # 这里我们需要清楚p.join()是让谁等?很明显这里是让主线程等待p结束,卡住的是主进程而绝非子进程
    p1.join()
    p2.join()
    p3.join()

    print('主进程')
View Code

上述实例代码详细解析如下:

进程只要start就开始运行了, 所以p1-p3.start()时,系统中已经有三个并发的进程了。而p1.join()是在等待p1结束,p1不结束主线程就会一直卡在原地,join是让主线程等,而p1-p3仍然是并发执行,p1.join()的时候,其余p2,p3仍然在运行,等p1.join()结束,可能p2,p3早已经结束了,这样p2.jion(),p3.join()直接通过检测,无需等待。

所以,join花费的总时间仍然是耗费时间最长的那个进程运行的时间。

上述启动程序可以简写为:

p_l = [p1, p2, p3]

    for p in p_l:
        p.start()

    for p in p_l:
        p.join()
View Code

Process对象的其他方法或属性(了解)

# 进程对象的其他方法一:terminate,is_alive
from multiprocessing import Process
import time


class MyProcess(Process):

    def __init__(self, name):
        super().__init__()
        self.name = name

    def run(self):
        print('%s start' % self.name)
        time.sleep(1)
        print('%s end' % self.name)

if __name__ =='__main__':

    p = MyProcess('zhangsan')
    p.start()
    p.terminate()           # 关闭进程,不会立即关闭,所以is_alive立刻查看的结果可能还是存活
    print(p.is_alive())     # 结果为True
    time.sleep(0.1)
    print(p.is_alive())     # 结果为False
terminate&is_alive
from multiprocessing import Process
import time
import os

class MyProcess(Process):

    def __init__(self, name):
        # self.name = name    # MyProcess-1
        # super().__init__()  # Process的__init__方法会执行self.name=自定义类名(这里就是MyProcess)-1,所以加到这里,会覆盖我们的self.name=name

        # 为我们开启的进程设置名字的做法
        super().__init__()
        self.name = name

    def run(self):
        print(os.getppid(), os.getpid())     # 我们可以使用os.getppid()获取父进程, os.getpid()获取当前进程
        print('%s start' % self.name)
        time.sleep(1)
        print('%s end' % self.name)

if __name__ =='__main__':

    name_list = ['zhangsan', 'lisi', 'wangwu']
    for name in name_list:
        p = MyProcess(name)
        p.start()
        print(p.pid)    # 查看pid
    print('主',os.getpid())
name&pid

僵尸进程与孤儿进程(了解)

参考博客:http://www.cnblogs.com/Anker/p/3271773.html

一:僵尸进程(有害)
  僵尸进程:一个进程使用fork创建子进程,如果子进程退出,而父进程并没有调用wait或waitpid获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程。详解如下

我们知道在unix/linux中,正常情况下子进程是通过父进程创建的,子进程在创建新的进程。子进程的结束和父进程的运行是一个异步过程,即父进程永远无法预测子进程到底什么时候结束,如果子进程一结束就立刻回收其全部资源,那么在父进程内将无法获取子进程的状态信息。

因此,UNⅨ提供了一种机制可以保证父进程可以在任意时刻获取子进程结束时的状态信息:
1、在每个进程退出的时候,内核释放该进程所有的资源,包括打开的文件,占用的内存等。但是仍然为其保留一定的信息(包括进程号the process ID,退出状态the termination status of the process,运行时间the amount of CPU time taken by the process等)
2、直到父进程通过wait / waitpid来取时才释放. 但这样就导致了问题,如果进程不调用wait / waitpid的话,那么保留的那段信息就不会释放,其进程号就会一直被占用,但是系统所能使用的进程号是有限的,如果大量的产生僵死进程,将因为没有可用的进程号而导致系统不能产生新的进程. 此即为僵尸进程的危害,应当避免。

  任何一个子进程(init除外)在exit()之后,并非马上就消失掉,而是留下一个称为僵尸进程(Zombie)的数据结构,等待父进程处理。这是每个子进程在结束时都要经过的阶段。如果子进程在exit()之后,父进程没有来得及处理,这时用ps命令就能看到子进程的状态是“Z”。如果父进程能及时 处理,可能用ps命令就来不及看到子进程的僵尸状态,但这并不等于子进程不经过僵尸状态。  如果父进程在子进程结束之前退出,则子进程将由init接管。init将会以父进程的身份对僵尸状态的子进程进行处理。

二:孤儿进程(无害)

  孤儿进程:一个父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤儿进程。孤儿进程将被init进程(进程号为1)所收养,并由init进程对它们完成状态收集工作。

  孤儿进程是没有父进程的进程,孤儿进程这个重任就落到了init进程身上,init进程就好像是一个民政局,专门负责处理孤儿进程的善后工作。每当出现一个孤儿进程的时候,内核就把孤 儿进程的父进程设置为init,而init进程会循环地wait()它的已经退出的子进程。这样,当一个孤儿进程凄凉地结束了其生命周期的时候,init进程就会代表党和政府出面处理它的一切善后工作。因此孤儿进程并不会有什么危害。

我们来测试一下(创建完子进程后,主进程所在的这个脚本就退出了,当父进程先于子进程结束时,子进程会被init收养,成为孤儿进程,而非僵尸进程),文件内容

import os
import sys
import time

pid = os.getpid()
ppid = os.getppid()
print 'im father', 'pid', pid, 'ppid', ppid
pid = os.fork()
#执行pid=os.fork()则会生成一个子进程
#返回值pid有两种值:
#    如果返回的pid值为0,表示在子进程当中
#    如果返回的pid值>0,表示在父进程当中
if pid > 0:
    print 'father died..'
    sys.exit(0)

# 保证主线程退出完毕
time.sleep(1)
print 'im child', os.getpid(), os.getppid()

执行文件,输出结果:
im father pid 32515 ppid 32015
father died..
im child 32516 1

看,子进程已经被pid为1的init进程接收了,所以僵尸进程在这种情况下是不存在的,存在只有孤儿进程而已,孤儿进程声明周期结束自然会被init来销毁。


三:僵尸进程危害场景:

  例如有个进程,它定期的产 生一个子进程,这个子进程需要做的事情很少,做完它该做的事情之后就退出了,因此这个子进程的生命周期很短,但是,父进程只管生成新的子进程,至于子进程 退出之后的事情,则一概不闻不问,这样,系统运行上一段时间之后,系统中就会存在很多的僵死进程,倘若用ps命令查看的话,就会看到很多状态为Z的进程。 严格地来说,僵死进程并不是问题的根源,罪魁祸首是产生出大量僵死进程的那个父进程。因此,当我们寻求如何消灭系统中大量的僵死进程时,答案就是把产生大 量僵死进程的那个元凶枪毙掉(也就是通过kill发送SIGTERM或者SIGKILL信号啦)。枪毙了元凶进程之后,它产生的僵死进程就变成了孤儿进 程,这些孤儿进程会被init进程接管,init进程会wait()这些孤儿进程,释放它们占用的系统进程表中的资源,这样,这些已经僵死的孤儿进程 就能瞑目而去了。

四:测试
#1、产生僵尸进程的程序test.py内容如下

#coding:utf-8
from multiprocessing import Process
import time,os

def run():
    print('子',os.getpid())

if __name__ == '__main__':
    p=Process(target=run)
    p.start()

    print('主',os.getpid())
    time.sleep(1000)


#2、在unix或linux系统上执行
[root@vm172-31-0-19 ~]# python3  test.py &
[1] 18652
[root@vm172-31-0-19 ~]# 主 18652
子 18653

[root@vm172-31-0-19 ~]# ps aux |grep Z
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root     18653  0.0  0.0      0     0 pts/0    Z    20:02   0:00 [python3] <defunct> #出现僵尸进程
root     18656  0.0  0.0 112648   952 pts/0    S+   20:02   0:00 grep --color=auto Z

[root@vm172-31-0-19 ~]# top #执行top命令发现1zombie
top - 20:03:42 up 31 min,  3 users,  load average: 0.01, 0.06, 0.12
Tasks:  93 total,   2 running,  90 sleeping,   0 stopped,   1 zombie
%Cpu(s):  0.0 us,  0.3 sy,  0.0 ni, 99.7 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  1016884 total,    97184 free,    70848 used,   848852 buff/cache
KiB Swap:        0 total,        0 free,        0 used.   782540 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S %CPU %MEM     TIME+ COMMAND
root      20   0   29788   1256    988 S  0.3  0.1   0:01.50 elfin


#3、
等待父进程正常结束后会调用wait/waitpid去回收僵尸进程
但如果父进程是一个死循环,永远不会结束,那么该僵尸进程就会一直存在,僵尸进程过多,就是有害的
解决方法一:杀死父进程
解决方法二:对开启的子进程应该记得使用join,join会回收僵尸进程
参考python2源码注释
class Process(object):
    def join(self, timeout=None):
        '''
        Wait until child process terminates
        '''
        assert self._parent_pid == os.getpid(), 'can only join a child process'
        assert self._popen is not None, 'can only join a started process'
        res = self._popen.wait(timeout)
        if res is not None:
            _current_process._children.discard(self)

join方法中调用了wait,告诉系统释放僵尸进程。discard为从自己的children中剔除

解决方法三:http://blog.csdn.net/u010571844/article/details/50419798
View Code

5.3 守护进程

主进程创建守护进程,说明如下:

1. 守护进程会在主进程代码执行结束后就终止

2. 守护进程内无法再开启子进程,否则抛出异常:AssertionError: daemonic processes are not allowed to have children

注意:进程之间是互相独立的,主进程代码运行结束,守护进程随即终止

from multiprocessing import Process
import time


class MyProcess(Process):

    def __init__(self, name):
        self.name = name
        super().__init__()

    def run(self):
        print('%s start' %self.name)
        time.sleep(2)
        print('%s end' %self.name)

if __name__ == '__main__':
    p =  MyProcess('xxx')
    p.daemon = True      # 一定要在p.start()前设置,设置p为守护进程,禁止p创建子进程,并且父进程代码执行结束,p即终止运行
    p.start()
    print('主')  # 主要终端打印出这一行内容,那么守护进程p也就跟着结束了
View Code
# 进程代码运行完毕,守护进程就会结束
from multiprocessing import Process
import time


def func1():
    print("Func1 begin!")
    time.sleep(1)
    print("Func1 end!")  # 实际会打印,因为func2为非守护线程,主线程会等待func2的执行,在这个过程中func1也执行了

def func2():
    print("Func2 begin!" )
    time.sleep(3)
    print("Func2 end!")

if __name__ == '__main__':
    p1 = Process(target=func1)
    p2 = Process(target=func2)
    p1.daemon = True
    p1.start()
    p2.start()
    print("")  # 打印该行则主进程代码结束,则守护进程p1应该被终止,可能会有p1任务执行的打印信息Func1 begin!,因为主进程打印’主‘时,p1也执行了,但是随即被终止
迷惑人的例子

强调:主进程在其代码结束后就已经算运行完毕了(守护进程在此时就被回收)

5.4 互斥锁

进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是没有问题的

而共享带来的是竞争,竞争带来的结果就是错乱,如何控制,就是加锁处理

实例一:多个进程共享同一打印终端

# 并发运行,效率高,但竞争同一打印终端,带来了打印错乱
from multiprocessing import Process
import os,time


def work():
    print('%s is running' %os.getpid())
    time.sleep(2)
    print('%s is done' %os.getpid())

if __name__ == '__main__':
    for i in range(3):
        p = Process(target=work)
        p.start()
并发运行,效率高,但竞争同一打印终端,带来了打印错乱
# 由并发变成了串行,牺牲了运行效率,但避免了竞争
from multiprocessing import Process,Lock
import os,time


def work(lock):
    lock.acquire()  # 加锁
    print('%s is running' %os.getpid())
    time.sleep(2)
    print('%s is done' %os.getpid())
    lock.release()  # 释放锁


if __name__ == '__main__':
    lock = Lock()
    for i in range(3):
        p = Process(target=work,args=(lock,))
        p.start()
加锁:由并发变成了串行,牺牲了运行效率,但避免了竞争

实例二:多个进程共享同一文件(文件当数据库,模拟抢票)

# 文件tickets的内容为:{"count":100},注意一定要用双引号,不然json无法识别
from multiprocessing import Process,Lock
import time,json


def search():
    """
    查询剩余票数
    """
    dic = json.load(open('tickets.txt'))
    print('剩余票数%s' %dic['count'])

def get():
    """
    买票
    """
    dic = json.load(open('tickets.txt'))
    time.sleep(0.1)         # 模拟读数据的网络延迟
    if dic['count'] >0:     # 如果还有票
        dic['count'] -= 1   # 剩余票数-1
        time.sleep(0.2)     # 模拟写数据的网络延迟
        json.dump(dic, open('tickets.txt','w'))
        print('购票成功!')

def task():
    search()
    get()


if __name__ == '__main__':
    for i in range(100):    # 模拟并发100个客户端抢票
        p = Process(target=task,)
        p.start()
并发运行,效率高,但竞争写同一文件,数据写入错乱
# 文件tickets的内容为:{"count":100},注意一定要用双引号,不然json无法识别
from multiprocessing import Process,Lock
import time,json


def search():
    """
    查询剩余票数
    """
    dic = json.load(open('tickets.txt'))
    print('剩余票数%s' %dic['count'])

def get():
    """
    买票
    """
    dic = json.load(open('tickets.txt'))
    time.sleep(0.1)         # 模拟读数据的网络延迟
    if dic['count'] >0:     # 如果还有票
        dic['count'] -= 1   # 剩余票数-1
        time.sleep(0.2)     # 模拟写数据的网络延迟
        json.dump(dic, open('tickets.txt','w'))
        print('购票成功!')

def task(lock):
    search()        # 因为查看的时候大家都可以看到,不需要加锁
    # lock.acquire()
    # get()           # 买票的时候必须一个一个的买,先等一个人买完了,后面的人在买
    # lock.release()

    with lock:  # 相当于lock.acquire()执行完自代码块后自动执行lock.release()
        get()

if __name__ == '__main__':
    lock = Lock()
    for i in range(100):    # 模拟并发100个客户端抢票
        p = Process(target=task, args=(lock,))
        p.start()
加锁:购票行为由并发变成了串行,牺牲了运行效率,但保证了数据安全

互斥锁和join

使用join可以将并发变成串行,互斥锁的原理也是将并发变成串行,那我们直接使用join会如何?

# 文件tickets的内容为:{"count":100},注意一定要用双引号,不然json无法识别
from multiprocessing import Process,Lock
import time,json


def search():
    """
    查询剩余票数
    """
    dic = json.load(open('tickets.txt'))
    print('剩余票数%s' %dic['count'])

def get():
    """
    买票
    """
    dic = json.load(open('tickets.txt'))
    time.sleep(0.1)         # 模拟读数据的网络延迟
    if dic['count'] >0:     # 如果还有票
        dic['count'] -= 1   # 剩余票数-1
        time.sleep(0.2)     # 模拟写数据的网络延迟
        json.dump(dic, open('tickets.txt','w'))
        print('购票成功!')

def task():
    search()        # 因为查看的时候大家都可以看到,不需要加锁
    get()

if __name__ == '__main__':
    for i in range(100):    # 模拟并发100个客户端抢票
        p = Process(target=task)
        p.start()
        p.join()
View Code

根据结果分析,使用join并发该串行,确实能保证数据安全,但问题是连查询操作也变成了只能一个一个去查了,很明显大家查票时应该是并发的去执行,而无需考虑数据准确与否,此时join与互斥锁的区别就显而易见了,join是将一个任务整体串行,而互斥锁的好处则是讲一个任务中的某一段代码串行。

总结:

1. 加锁可以保证多个进程修改同一块数据时,同一时间只能有一个任务可以进行修改,即串行的修改,没错,速度是慢了,但牺牲了速度却保证了数据安全。 虽然可以用文件共享数据实现进程间通信,但问题是:

  • 效率低(共享数据基于文件,而文件是硬盘上的数据)
  • 需要自己加锁处理

2. 因此我们最好找寻一种解决方案能够兼顾:1、效率高(多个进程共享一块内存的数据)2、帮我们处理好锁问题。这就是mutiprocessing模块为我们提供的基于消息的IPC通信机制:队列和管道

  • 队列和管道都是将数据存放于内存中
  • 队列又是基于(管道+锁)实现的,可以让我们从复杂的锁问题中解脱出来, 我们应该尽量避免使用共享数据,尽可能使用消息传递和队列,避免处理复杂的同步和锁问题,而且在进程数目增多时,往往可以获得更好的可获展性。

5.5 队列(推荐使用)

进程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的

创建队列的类(底层就是以管道和锁定的方式实现)

Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递
    # maxsize是队列中允许最大项数,省略则无大小限制

注意:

  • 队列内存放的是消息而非大数据
  • 队列占用的是内存空间,因而maxsize即便是无大小限制也受限于内存大小

方法介绍:

# 主要方法
q.put方法用以插入数据到队列中,put方法还有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,该方法会阻塞timeout指定的时间,直到该队列有剩余的空间。如果超时,会抛出Queue.Full异常。如果blocked为False,但该Queue已满,会立即抛出Queue.Full异常。
q.get方法可以从队列读取并且删除一个元素。同样,get方法有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,那么在等待时间内没有取到任何元素,会抛出Queue.Empty异常。如果blocked为False,有两种情况存在,如果Queue有一个值可用,则立即返回该值,否则,如果队列为空,则立即抛出Queue.Empty异常.

q.get_nowait():同q.get(False)
q.put_nowait():同q.put(False)

q.empty():调用此方法时q为空则返回True,该结果不可靠,比如在返回True的过程中,如果队列中又加入了项目。
q.full():调用此方法时q已满则返回True,该结果不可靠,比如在返回True的过程中,如果队列中的项目被取走。
q.qsize():返回队列中目前项目的正确数量,结果也不可靠,理由同q.empty()和q.full()一样

# 其他方法(了解)
q.cancel_join_thread():不会在进程退出时自动连接后台线程。可以防止join_thread()方法阻塞

q.close():关闭队列,防止队列中加入更多数据。调用此方法,后台线程将继续写入那些已经入队列但尚未写入的数据,但将在此方法完成时马上关闭。如果q被垃圾收集,将调用此方法。关闭队列不会在队列使用者中产生任何类型的数据结束信号或异常。例如,如果某个使用者正在被阻塞在get()操作上,关闭生产者中的队列不会导致get()方法返回错误。

q.join_thread():连接队列的后台线程。此方法用于在调用q.close()方法之后,等待所有队列项被消耗。默认情况下,此方法由不是q的原始创建者的所有进程调用。调用q.cancel_join_thread方法可以禁止这种行为
View Code

实例应用:

# 1.可以往队列里放任意类型的
# 2.先进先出
from multiprocessing import Process, Queue
import time

def func(q, n):
    q.put(n*n+1)
    print("son process",id(q))

if __name__ == '__main__':
    q = Queue()
    print("main process",id(q))

    for i in range(3):
        p = Process(target=func, args=(q,i))
        p.start()

    time.sleep(0.5)
    print(q.get())
    print(q.get())
    print(q.get())
    print(q.empty())  # True
    print(q.get())  # 阻塞
View Code

生产者和消费者模型

在并发编程中使用生产者和消费者模式能够解决绝大多数并发问题。该模式通过平衡生产线程和消费线程的工作能力来提高程序的整体处理数据的速度。

为什么要使用生产者消费者模式

生产者指的是生产数据的任务,消费者指的是处理数据的任务。在并发编程中,如果生产者处理速度很快,而消费者处理速度很慢,那么生产者就必须等待消费者处理完,才能继续生产数据。同样的道理,如果消费者的处理能力大于生产者,那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。

什么是生产者消费者模式

生产者消费者模式是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接扔给阻塞队列,消费者不找生产者要数据,而是直接从阻塞队列里取,阻塞队列就相当于一个缓冲区,平衡了生产者和消费者的处理能力。

这个阻塞队列就是用来给生产者和消费者解耦的

基于队列实现生产者消费者模型

from multiprocessing import Process,Queue
import time,os


def producer(q):
    for i in range(10):
        time.sleep(1)
        res = '包子%s' %i
        q.put(res)
        print('%s 生产了 %s' %(os.getpid(),res))

def consumer(q):
    while True:
        res = q.get()
        time.sleep(1)
        print('%s 吃 %s' %(os.getpid(),res))


if __name__ == '__main__':
    q = Queue()
    # 生产者
    p1 = Process(target=producer,args=(q,))

    # 消费者
    c1 = Process(target=consumer,args=(q,))

    # 开始
    p1.start()
    c1.start()
    print('主')
View Code

此时的问题是主进程永远不会结束,原因是:生产者p在生产完后就结束了,但是消费者c在取空了q之后,则一直处于死循环中且卡在q.get()这一步。

解决方式无非是让生产者在生产完毕后,往队列中再发一个结束信号,这样消费者在接收到结束信号后就可以break出死循环

from multiprocessing import Process,Queue
import time,os


def producer(q):
    for i in range(10):
        time.sleep(1)
        res = '包子%s' %i
        q.put(res)
        print('%s 生产了 %s' %(os.getpid(),res))
    q.put(None)  # 发送结束信号

def consumer(q):
    while True:
        res = q.get()
        if res is None: break  # 收到结束信号则结束
        time.sleep(1)
        print('%s 吃 %s' %(os.getpid(),res))


if __name__ == '__main__':
    q = Queue()
    # 生产者
    p1 = Process(target=producer,args=(q,))

    # 消费者
    c1 = Process(target=consumer,args=(q,))

    # 开始
    p1.start()
    c1.start()
    print('主')
生产者在生产完毕后发送结束信号None

注意:结束信号None,不一定要由生产者发,主进程里同样可以发,但主进程需要等生产者结束后才应该发送该信号

from multiprocessing import Process,Queue
import time,os


def producer(q):
    for i in range(10):
        time.sleep(1)
        res = '包子%s' %i
        q.put(res)
        print('%s 生产了 %s' %(os.getpid(),res))

def consumer(q):
    while True:
        res = q.get()
        if res is None: break  # 收到结束信号则结束
        time.sleep(1)
        print('%s 吃 %s' %(os.getpid(),res))


if __name__ == '__main__':
    q = Queue()
    # 生产者
    p1 = Process(target=producer,args=(q,))

    # 消费者
    c1 = Process(target=consumer,args=(q,))

    # 开始
    p1.start()
    c1.start()
    p1.join()
    q.put(None)  # 发送结束信号
    print('主')
主进程在生产者生产完毕后发送结束信号None

但上述解决方式,在有多个生产者和多个消费者时,我们则需要用一个很low的方式去解决

from multiprocessing import Process,Queue
import time,os


def producer(name,q):
    for i in range(10):
        time.sleep(1)
        res = '%s%s' %(name,i)
        q.put(res)
        print('%s 生产了 %s' %(os.getpid(),res))

def consumer(q):
    while True:
        res = q.get()
        if res is None: break  # 收到结束信号则结束
        time.sleep(1)
        print('%s 吃 %s' %(os.getpid(),res))


if __name__ == '__main__':
    q = Queue()
    # 生产者们
    p1 = Process(target=producer, args=('包子', q))
    p2 = Process(target=producer, args=('馒头', q))
    p3 = Process(target=producer, args=('麻花', q))

    # 消费者们
    c1 = Process(target=consumer, args=(q,))
    c2 = Process(target=consumer, args=(q,))

    # 开始
    p1.start()
    p2.start()
    p3.start()
    c1.start()
    c2.start()

    p1.join()    # 必须保证生产者全部生产完毕,才发送结束信号
    p2.join()
    p3.join()
    q.put(None)  # 有几个消费者就应该发送几次结束信号None
    q.put(None)  # 发送结束信号
    print('主')
有几个消费者就需要发送几次结束信号:相当low

其实我们的思路无非是发送结束信号而已,有另外一种队列提供了这种机制

# JoinableQueue([maxsize]):这就像是一个Queue对象,但队列允许项目的使用者通知生成者项目已经被成功处理。通知进程是使用共享的信号和条件变量来实现的。

# 参数介绍:
maxsize是队列中允许最大项数,省略则无大小限制
    
# 方法介绍:
JoinableQueue的实例p除了与Queue对象相同的方法之外还具有:
q.task_done():使用者使用此方法发出信号,表示q.get()的返回项目已经被处理。如果调用此方法的次数大于从队列中删除项目的数量,将引发ValueError异常
q.join():生产者调用此方法进行阻塞,直到队列中所有的项目均被处理。阻塞将持续到队列中的每个项目均调用q.task_done()方法为止
from multiprocessing import Process,JoinableQueue
import time,os


def producer(name,q):
    for i in range(10):
        time.sleep(1)
        res = '%s%s' %(name,i)
        q.put(res)
        print('%s 生产了 %s' %(os.getpid(),res))
    q.join()    # 不用put(None)了,在等q被取完。(如果数据没有被取完,生产者就不会结束掉)

def consumer(q):
    while True:
        res = q.get()
        time.sleep(1)
        print('%s 吃 %s' %(os.getpid(),res))
        q.task_done()  # 向q.join()发送一次信号,证明一个数据已经被取走了


if __name__ == '__main__':
    q = JoinableQueue()
    # 生产者们
    p1 = Process(target=producer, args=('包子', q))
    p2 = Process(target=producer, args=('馒头', q))
    p3 = Process(target=producer, args=('麻花', q))

    # 消费者们
    c1 = Process(target=consumer, args=(q,))
    c2 = Process(target=consumer, args=(q,))
    c1.daemon = True
    c2.daemon = True

    # 开始
    p_l = [p1, p2, p3, c1, c2]
    for p in p_l:
        p.start()

    p1.join()
    p2.join()
    p3.join()
    print('主')

    # 主进程等--->p1,p2,p3等---->c1,c2
    # p1,p2,p3结束了,证明c1,c2肯定全都收完了p1,p2,p3发到队列的数据
    # 因而c1,c2也没有存在的价值了,应该随着主进程的结束而结束,所以设置成守护进程
JoinableQueue应用
from multiprocessing import Process,JoinableQueue
import time,os


def producer(name,q):
    for i in range(10):
        time.sleep(1)
        res = '%s%s' %(name,i)
        q.put(res)
        print('%s 生产了 %s' %(os.getpid(),res))
    q.join()    # 不用put(None)了,在等q被取完。(如果数据没有被取完,生产者就不会结束掉)

def consumer(q):
    while True:
        res = q.get()
        time.sleep(1)
        print('%s 吃 %s' %(os.getpid(),res))
        q.task_done()  # 向q.join()发送一次信号,证明一个数据已经被取走了


if __name__ == '__main__':
    q = JoinableQueue()
    # 生产者
    p1 = Process(target=producer, args=('包子', q))

    # 消费者
    c1 = Process(target=consumer, args=(q,))
    c1.daemon = True

    # 开始
    p_l = [p1,c1]
    for p in p_l:
        p.start()

    p1.join()
    print('主')
单个生产者&单个消费者JoinableQueue应用

5.6 管道(了解)

# 创建管道的类:
Pipe([duplex]):在进程之间创建一条管道,并返回元组(conn1,conn2),其中conn1,conn2表示管道两端的连接对象,强调一点:必须在产生Process对象之前产生管道

# 参数介绍:
dumplex:默认管道是全双工的,如果将duplex射成False,conn1只能用于接收,conn2只能用于发送。

# 主要方法:
conn1.recv():接收conn2.send(obj)发送的对象。如果没有消息可接收,recv方法会一直阻塞。如果连接的另外一端已经关闭,那么recv方法会抛出EOFError。
conn1.send(obj):通过连接发送对象。obj是与序列化兼容的任意对象

# 其他方法:
conn1.close():关闭连接。如果conn1被垃圾回收,将自动调用此方法
conn1.fileno():返回连接使用的整数文件描述符
conn1.poll([timeout]):如果连接上的数据可用,返回True。timeout指定等待的最长时限。如果省略此参数,方法将立即返回结果。如果将timeout射成None,操作将无限期地等待数据到达。

conn1.recv_bytes([maxlength]):接收c.send_bytes()方法发送的一条完整的字节消息。maxlength指定要接收的最大字节数。如果进入的消息,超过了这个最大值,将引发IOError异常,并且在连接上无法进行进一步读取。如果连接的另外一端已经关闭,再也不存在任何数据,将引发EOFError异常。
conn.send_bytes(buffer [, offset [, size]]):通过连接发送字节数据缓冲区,buffer是支持缓冲区接口的任意对象,offset是缓冲区中的字节偏移量,而size是要发送字节数。结果数据以单条消息的形式发出,然后调用c.recv_bytes()函数进行接收

conn1.recv_bytes_into(buffer [, offset]):接收一条完整的字节消息,并把它保存在buffer对象中,该对象支持可写入的缓冲区接口(即bytearray对象或类似的对象)。offset指定缓冲区中放置消息处的字节位移。返回值是收到的字节数。如果消息长度大于可用的缓冲区空间,将引发BufferTooShort异常。
基础介绍
from multiprocessing import Process,Pipe


def producer(seq, p):
    left,right = p
    right.close()
    for i in seq:
        left.send(i)
        # time.sleep(1)
    else:
        left.close()

def consumer(p,name):
    left,right = p
    left.close()
    while True:
        try:
            food = right.recv()
            print('%s 收到包子:%s' %(name, food))
        except EOFError:
            right.close()
            break


if __name__ == '__main__':
    left,right = Pipe()
    c1 = Process(target=consumer,args=((left,right),'c1'))
    c1.start()


    seq = (i for i in range(10))
    producer(seq,(left,right))

    right.close()
    left.close()

    c1.join()
    print('主进程')
基于管道实现进程间通信(与队列的方式是类似的,队列就是管道加锁实现的)

注意:生产者和消费者都没有使用管道的某个端点,就应该将其关闭,如在生产者中关闭管道的右端,在消费者中关闭管道的左端。如果忘记执行这些步骤,程序可能再消费者中的recv()操作上挂起。管道是由操作系统进行引用计数的,必须在所有进程中关闭管道后才能生产EOFError异常。因此在生产者中关闭管道不会有任何效果,付费消费者中也关闭了相同的管道端点。

5.7 共享数据

进程间数据是独立的,可以借助于队列或管道实现通信,二者都是基于消息传递的。虽然进程间数据独立,但可以通过Manager实现数据共享(事实上Manager的功能远不止于此)。

from multiprocessing import Manager,Process,Lock
import os

def work(d,lock):
    with lock: # 不加锁而操作共享的数据,肯定会出现数据错乱
        d['count'] -= 1

if __name__ == '__main__':
    lock = Lock()
    with Manager() as m:
        dic = m.dict({'count':100})
        p_l = []
        for i in range(100):
            p = Process(target=work, args=(dic,lock))
            p_l.append(p)
            p.start()

        for p in p_l:
            p.join()

        print(dic)
进程之间操作共享的数据

5.8 信号量(了解)

# 互斥锁同时只允许一个线程更改数据,而Semaphore是同时允许一定数量的线程更改数据 ,比如去餐厅吃饭,一次性最多招待5桌,
# 后面的顾客只能等前面的顾客结束用餐后才能进餐。如果指定信号量为5,那么来一桌人获得一把锁,计数加1,当计数等于5时,后面的则需要等待。
# 一旦释放,下一桌可以获得一把锁

# 信号量与进程池的概念很像,但是要区分开,信号量涉及到加锁的概念

from multiprocessing import Process,Semaphore
import time,random

def eat(sem, consumer):
    sem.acquire()
    print('%s 开始吃饭' %consumer)
    time.sleep(random.randint(0,3))  # 模拟吃饭时间
    print('%s 结束吃饭' % consumer)
    sem.release()

if __name__ == '__main__':
    sem = Semaphore(5)
    p_l = []
    for i in range(10):
        p = Process(target=eat,args=(sem,'user%s' %i,))
        p.start()
        p_l.append(p)

    for i in p_l:
        i.join()

    print('主')
信号量实例(同线程一样)

5.9 事件(了解)

from multiprocessing import Process, Event
import time

def func(e, i):
    print(i)
    e.wait()  # 检测当前event是什么状态,如果是为False,则阻塞,如果为True则继续往下执行。
    print(i + 10)


if __name__ == '__main__':
    event = Event()
    for i in range(5):
        p = Process(target=func, args=(event, i))
        p.start()

    # event.clear()  # 默认为False,将状态设置为False
    time.sleep(1)
    while True:
        inp = input(">>>")
        if inp == "y":
            event.set()  # 将状态设置为True
            break
        else:
            continue
事件实例(同线程一致)

5.10 进程池

在利用Python进行系统管理的时候,特别是同时操作多个文件目录,或者远程控制多台主机,并行操作可以节约大量的时间。多进程是实现并发的手段之一,需要注意的问题是:

  1. 很明显需要并发执行的任务通常要远大于核数
  2. 一个操作系统不可能无限开启进程,通常有几个核就开几个进程
  3. 进程开启过多,效率反而会下降(开启进程是需要占用系统资源的,而且开启多余核数目的进程也无法做到并行)

例如:当被操作对象数目不大时,可以直接利用multiprocessing中的Process动态成生多个进程,十几个还好,但如果是上百个,上千个。。。手动的去限制进程数量却又太过繁琐,此时可以发挥进程池的功效。

我们可以通过维护一个进程池来控制进程数目,比如:httpd的进程模式,规定最小进程数和最大进程数...

ps:对于远程过程调用的高级应用程序而言,应该使用进程池,Pool可以提供指定数量的进程,供用户调用,当有新的请求提交到pool中时,如果池还没有满,那么就会创建一个新的进程用来执行该请求;但如果池中的进程数已经达到规定最大值,那么该请求就会等待,直到池中有进程结束,就重用进程池中的进程。

创建进程池的类:如果指定numprocess为4,则进程池会从无到有创建4个进程,然后自始至终使用这4个进程去执行所有任务,不会开启其他进程

Pool([numprocess  [,initializer [, initargs]]]):创建进程池 

参数介绍:

numprocess:要创建的进程数,如果省略,将默认使用cpu_count()的值
initializer:是每个工作进程启动时要执行的可调用对象,默认为None
initargs:是要传给initializer的参数组

方法介绍:

# 主要方法
p.apply(func [, args [, kwargs]]):在一个池工作进程中执行func(*args,**kwargs),然后返回结果。需要强调的是:此操作并不会在所有池工作进程中并执行func函数。如果要通过不同参数并发地执行func函数,必须从不同线程调用p.apply()函数或者使用p.apply_async()
p.apply_async(func [, args [, kwargs]]):在一个池工作进程中执行func(*args,**kwargs),然后返回结果。此方法的结果是AsyncResult类的实例,callback是可调用对象,接收输入参数。当func的结果变为可用时,将理解传递给callback。callback禁止执行任何阻塞操作,否则将接收其他异步操作中的结果。

p.close():关闭进程池,防止进一步操作。如果所有操作持续挂起,它们将在工作进程终止前完成
P.jion():等待所有工作进程退出。此方法只能在close()或teminate()之后调用

# 其他方法(了解部分)
方法apply_async()和map_async()的返回值是AsyncResul的实例obj。实例具有以下方法
obj.get():返回结果,如果有必要则等待结果到达。timeout是可选的。如果在指定时间内还没有到达,将引发一场。如果远程操作中引发了异常,它将在调用此方法时再次被引发。

obj.ready():如果调用完成,返回True
obj.successful():如果调用完成且没有引发异常,返回True,如果在结果就绪之前调用此方法,引发异常
obj.wait([timeout]):等待结果变为可用。
obj.terminate():立即终止所有工作进程,同时不执行任何清理或结束任何挂起工作。如果p被垃圾回收,将自动调用此函数
View Code

实例应用:

from multiprocessing import Pool
import os,time


def work(n):
    print('%s run' %os.getpid())
    time.sleep(3)
    return n**2

if __name__ == '__main__':
    p = Pool(3)  # 进程池中从无到有创建三个进程,以后一直是这三个进程在执行任务
    res_l = []
    for i in range(10):
        res = p.apply(work,args=(i,)) # 同步调用,直到本次任务执行完毕拿到res,等待任务work执行的过程中可能有阻塞也可能没有阻塞,但不管该任务是否存在阻塞,同步调用都会在原地等着,只是等的过程中若是任务发生了阻塞就会被夺走cpu的执行权限
        res_l.append(res)
    print(res_l)
apply同步进程池(阻塞)(并行)
from multiprocessing import Pool
import os,time


def work(n):
    print('%s run' %os.getpid())
    time.sleep(3)
    return n**2

if __name__ == '__main__':
    p = Pool(3)     # 进程池中从无到有创建三个进程,以后一直是这三个进程在执行任务
    res_l = []
    for i in range(10):
        res = p.apply_async(work,args=(i,))
        # print(res)  # 打印出来的是对象
        res_l.append(res)

    # 异步apply_async用法:如果使用异步提交的任务,主进程需要使用jion,等待进程池内任务都处理完,然后可以用get收集结果,否则,主进程结束,进程池可能还没来得及执行,也就跟着一起结束了
    p.close()
    p.join()
    for res in res_l:
        print(res.get()) # 使用get来获取apply_aync的结果,如果是apply,则没有get方法,因为apply是同步执行,立刻获取结果,也根本无需get
apply_async异步进程池(非阻塞)(并行)

使用进程池维护固定数目的进程

import socket
from multiprocessing import Pool
import os


ip_port = ('127.0.0.1',8081)
buf_size = 1024

tcp_server = socket.socket()
tcp_server.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1)
tcp_server.bind(ip_port)
tcp_server.listen(5)

def run(conn,addr):
    print('进程pid: %s' % os.getpid())
    while True:
        try:
            recv_data = conn.recv(buf_size)
            if not recv_data:break
            print('收到来自%s的消息:%s' %(addr, recv_data.decode('utf-8')))
            conn.send(recv_data.upper())
        except Exception:
            break

if __name__ == '__main__':
    print('The server is ready...')
    p = Pool()  # Pool内的进程数量默认为cpu核数,可用os.cpu_count()获取
    while True:
        conn,addr = tcp_server.accept()
        # p.apply_async(run,args=(conn, addr,))
        p.apply(run, args=(conn, addr,))  # 同步的话,则同一时间只有一个客户端能访问
服务端
import socket

ip_port = ('127.0.0.1',8081)
buf_size = 1024

tcp_client = socket.socket()
tcp_client.connect(ip_port)

while True:
    send_msg = input('>>: ').strip()
    if not send_msg:continue
    tcp_client.send(send_msg.encode('utf-8'))
    recv_msg = tcp_client.recv(buf_size)
    print(recv_msg.decode('utf-8'))
客户端

5.11 回调函数

回调函数什么时候用?(回调函数在爬虫中最常用)
造数据的非常耗时
处理数据的时候不耗时
 
你下载的地址如果完成了,就自动提醒让主进程解析
谁要是好了就通知解析函数去解析(回调函数的强大之处)

需要回调函数的场景:进程池中任何一个任务一旦处理完了,就立即告知主进程:我好了,你可以处理我的结果了。主进程则调用一个函数去处理该结果,该函数即回调函数

我们可以把耗时间(阻塞)的任务放到进程池中,然后指定回调函数(主进程负责执行),这样主进程在执行回调函数时就省去了I/O的过程,直接拿到的是任务的结果

from  multiprocessing import Pool
import requests
import os
import time


def get_page(url):
    print('<%s> is getting [%s]' %(os.getpid(),url))
    response = requests.get(url)  # 得到地址
    time.sleep(2)
    print('<%s> is  done [%s]'%(os.getpid(),url))
    return {'url':url,'text':response.text}

def parse_page(res):
    '''解析函数'''
    print('<%s> parse [%s]'%(os.getpid(),res['url']))
    with open('db.txt','a') as f:
        parse_res = 'url:%s size:%s\n' %(res['url'],len(res['text']))
        f.write(parse_res)

if __name__ == '__main__':
    p = Pool(4)
    urls = [
        'https://www.baidu.com',
        'https://www.jd.com',
        'https://www.suning.com',
        'http://www.sina.com.cn/',
        'http://www.sohu.com/'
    ]
    for url in urls:
        obj = p.apply_async(get_page,args=(url,),callback=parse_page)
    p.close()
    p.join()
    print('主',os.getpid())  # 都不用.get()方法了
回调函数(下载网页)

如果在主进程中等待进程池中所有任务都执行完毕后,再统一处理结果,则无需回调函数

from  multiprocessing import Pool
import requests
import os


def get_page(url):
    print('<%s> get [%s]' %(os.getpid(),url))
    response = requests.get(url)    # 得到地址response响应
    return {'url':url,'text':response.text}


if __name__ == '__main__':
    p = Pool(4)
    urls = [
        'https://www.baidu.com',
        'https://www.jd.com',
        'https://www.suning.com',
        'http://www.sina.com.cn/',
        'http://www.sohu.com/'
    ]
    obj_l= []
    for url in urls:
        obj = p.apply_async(get_page,args=(url,))
        obj_l.append(obj)
    p.close()
    p.join()
    print([obj.get() for obj in obj_l])
下载网页(无需回调函数)

 

 

参考:http://www.cnblogs.com/linhaifeng/articles/7430066.html

        http://www.cnblogs.com/linhaifeng/articles/7428874.html

posted @ 2018-08-04 16:43  Joe1991  阅读(188)  评论(0)    收藏  举报