python_线程和进程

1. 线程和进程的概念

 

计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他的车间必须停工。背后的含义就是,单个CPU一次只能运行一个任务

    • 进程就好比工厂车间,它代表CPU所能处理的单个任务。任一时刻,CPU总是运行一个进程,其它进程处于非运行状态
    • 一个车间里,可以有很多工人。他们协同完成一个任务!(线程就好比车间里的工人。一个进程可以包括多个线程)
    • 车间里的空间是工人们共享的,比如许多房间是每个工人都可以进出的。这象征一个进程的内存空间是共享的,每个线程都可以使用这些共享内存
    • 可是每个房间的大小不同,有些房间最多只能容纳一个人,比如厕所。里面有人的时候,其他人就不能进去了。这代表一个线程使用某些共享内存时,其他线程必须等他结束,才能使用这一块内存
    • 一个防止他人进入的简单方法,就是门口加一把锁。先到的人锁上门,后到的人看到上锁,就在门口排队,等锁打开在进去。这就叫“互斥锁”(Mutual exclusion,缩写Mutex),防止多个线程同时读写某一块内存区域
    • 还有些房间,可以同时容纳n个人,比如厨房。也就是说,如果人数大于n,多出来的人只能在外面等着。这好比某些内存区域,只能供给固定数目的线程使用
      • 解决方法,就在门口挂n把锁。进去的人就取一把钥匙,出来时再把钥匙挂回原处。后到的人发现钥匙架空了,就知道必须在门口排队等着了。这种做法就叫“信号量”(Semaphore),用来保证多个线程不会互相冲突

2. 多线程(部分)

   多线程的包: threading

   创建多线程的类:  Thread()

   函数:    

    start():  启动线程

    join(): 等待直到线程结束

    isAlive(): 判断线程是否处于激活状态

3. 多进程(部分)

  多进程的包:multiprocessing

  创建进程池的类: Pool()

  函数:

    apply_async(func[, args[, kwds[, callback]]]):非阻塞的。进程运行时,不会运行主程序

    apply(func[, args[, kwds]]):阻塞的。等待进程结束后,才运行主程序

    close(): 关闭pool,使其不接受新的任务

    terminate(): 结束工作进程,不再处理未完成任务

    join():主进程阻塞,等待子进程的退出,join方法要在close或terminate之后使用

4. 例子

 【top-1m.csv文件内容(部分)】

1,google.com
2,youtube.com
3,facebook.com
4,baidu.com
5,wikipedia.org
6,yahoo.com
7,qq.com
8,taobao.com
9,tmall.com
10,twitter.com
11,google.co.in
12,instagram.com
13,sohu.com
14,amazon.com
15,vk.com
16,jd.com
17,live.com
18,yandex.ru
19,reddit.com
20,sina.com.cn
21,weibo.com
22,360.cn
23,login.tmall.com
24,google.co.jp
25,blogspot.com
26,google.com.hk
27,linkedin.com
28,google.com.br
29,netflix.com
30,pornhub.com
31,google.co.uk
32,csdn.net
View Code 

 【代码】

# -*- encoding:utf-8 -*-
import urllib2
import robotparser
import urlparse
import time
import bs4
import requests
import os
import csv
import threading
import multiprocessing
from lxml import etree
from bs4 import BeautifulSoup

def download(url, user_agent="wswp", delay=10, num_retries=5):
    '''
        功能:下载网页,考虑客户端代理和延迟
    '''
    print "download: %s" % url

    # 设置代理
    headers = {"User-agent": user_agent}
    request = urllib2.Request(url, headers=headers)

    try:
        # 如果不设置超时,系统很容易成假死状态
        html = urllib2.urlopen(request, None, 5).read()
    except Exception as e:
        html = None

        # 第1次下载失败,经过多次下载
        if num_retries > 0:
            # 重新下载时,进行一段时间的推迟
            time.sleep(delay)

            html = download(url, user_agent, delay, num_retries - 1)
    # print html
    return html


def get_url(max_num=32):
    '''
        功能:获取url的数量
    '''
    url_list = list()
    csv_read = csv.reader(open("top-1m.csv"))
    num_list = [1, 2, 3, 10, 11, 12, 19, 23, 24, 25, 26, 28, 30, 31]

    for row in csv_read:
        num = int(row[0])
        if num <= max_num and num not in num_list:
            url_list.append("https://" + "www." + row[1])
        elif num in num_list:
            continue
        else:
            break

    return url_list


def serial_download():
    '''
        串行进行下载
    '''
    for url in get_url():
        html = download(url)


def thread_download(thread_num=5):
    '''
        功能: 开启多线程进行下载
    '''
    # 用来存储线程
    thread_list = []
    for url in get_url():
        t = threading.Thread(target=download, args=(url, ))
        t.start()
        thread_list.append(t)

        # 开启的线程数
        while len(thread_list) == thread_num:
            for t in thread_list:
                if not t.isAlive():
                    thread_list.remove(t)
    # 等待线程结束
    for t in thread_list:
        t.join()


def process_download(process_num=5):
    '''
        功能:开启多进程进行下载
    '''
    # 维持执行的进程总数为process_num, 当一个进程执行完毕后会添加新的进程进去
    pool = multiprocessing.Pool(processes=process_num)

    for url in get_url():
        # apply:阻塞的,等待子进程结束后,才执行主程序
        pool.apply(download, (url, ))

    # 调用join之前,先调用close函数,否则会出错。执行完close后不会有新的进程加入pool,join函数等待所有子进程结束
    pool.close()
    pool.join()


start = time.time()
serial_download()
end = time.time()
print "串行下载的时间", end - start

time.sleep(10)


start1 = time.time()
thread_download(5)
end1 = time.time()
print "并行(线程)下载的时间", end1 - start1

time.sleep(10)

start2 = time.time()
process_download(5)
end2 = time.time()
print "并行(进程)下载的时间", end2 - start2
View Code

【运行结果--与网络也存在很大的关系】

download: https://www.baidu.com
download: https://www.wikipedia.org
download: https://www.wikipedia.org
download: https://www.yahoo.com
download: https://www.qq.com
download: https://www.taobao.com
download: https://www.tmall.com
download: https://www.sohu.com
download: https://www.amazon.com
download: https://www.vk.com
download: https://www.jd.com
download: https://www.live.com
download: https://www.yandex.ru
download: https://www.sina.com.cn
download: https://www.weibo.com
download: https://www.360.cn
download: https://www.linkedin.com
download: https://www.netflix.com
download: https://www.csdn.net
串行下载的时间 60.4148490429
download: https://www.baidu.com
 download: https://www.wikipedia.org
download: https://www.yahoo.com
download: https://www.qq.com
download: https://www.taobao.com
download: https://www.tmall.com
download: https://www.sohu.com
download: https://www.amazon.com
download: https://www.vk.com
download: https://www.jd.com
download: https://www.live.com
download: https://www.yandex.ru
download: https://www.sina.com.cn
download: https://www.weibo.com
download: https://www.360.cn
download: https://www.linkedin.com
download: https://www.netflix.com
download: https://www.csdn.net
并行(线程)下载的时间 7.77214312553
download: https://www.baidu.com
download: https://www.wikipedia.org
download: https://www.yahoo.com
download: https://www.qq.com
download: https://www.taobao.com
download: https://www.tmall.com
download: https://www.tmall.com
download: https://www.sohu.com
download: https://www.amazon.com
download: https://www.vk.com
download: https://www.jd.com
download: https://www.live.com
download: https://www.yandex.ru
download: https://www.sina.com.cn
download: https://www.weibo.com
download: https://www.360.cn
download: https://www.linkedin.com
download: https://www.netflix.com
download: https://www.csdn.net
并行(进程)下载的时间 59.1667320728
View Code

参考:

  1. https://www.cnblogs.com/fengxuehuanlin/p/7546461.html

posted @ 2018-11-25 21:10  坏脾气  阅读(150)  评论(0编辑  收藏  举报