python_线程和进程
1. 线程和进程的概念
计算机的核心是CPU,它承担了所有的计算任务。它就像一座工厂,时刻在运行。假定工厂的电力有限,一次只能供给一个车间使用。也就是说,一个车间开工的时候,其他的车间必须停工。背后的含义就是,单个CPU一次只能运行一个任务
-
- 进程就好比工厂车间,它代表CPU所能处理的单个任务。任一时刻,CPU总是运行一个进程,其它进程处于非运行状态
- 一个车间里,可以有很多工人。他们协同完成一个任务!(线程就好比车间里的工人。一个进程可以包括多个线程)
- 车间里的空间是工人们共享的,比如许多房间是每个工人都可以进出的。这象征一个进程的内存空间是共享的,每个线程都可以使用这些共享内存
- 可是每个房间的大小不同,有些房间最多只能容纳一个人,比如厕所。里面有人的时候,其他人就不能进去了。这代表一个线程使用某些共享内存时,其他线程必须等他结束,才能使用这一块内存
- 一个防止他人进入的简单方法,就是门口加一把锁。先到的人锁上门,后到的人看到上锁,就在门口排队,等锁打开在进去。这就叫“互斥锁”(Mutual exclusion,缩写Mutex),防止多个线程同时读写某一块内存区域
- 还有些房间,可以同时容纳n个人,比如厨房。也就是说,如果人数大于n,多出来的人只能在外面等着。这好比某些内存区域,只能供给固定数目的线程使用
- 解决方法,就在门口挂n把锁。进去的人就取一把钥匙,出来时再把钥匙挂回原处。后到的人发现钥匙架空了,就知道必须在门口排队等着了。这种做法就叫“信号量”(Semaphore),用来保证多个线程不会互相冲突
2. 多线程(部分)
多线程的包: threading
创建多线程的类: Thread()
函数:
start(): 启动线程
join(): 等待直到线程结束
isAlive(): 判断线程是否处于激活状态
3. 多进程(部分)
多进程的包:multiprocessing
创建进程池的类: Pool()
函数:
apply_async(func[, args[, kwds[, callback]]]):非阻塞的。进程运行时,不会运行主程序
apply(func[, args[, kwds]]):阻塞的。等待进程结束后,才运行主程序
close(): 关闭pool,使其不接受新的任务
terminate(): 结束工作进程,不再处理未完成任务
join():主进程阻塞,等待子进程的退出,join方法要在close或terminate之后使用
4. 例子
【top-1m.csv文件内容(部分)】
1,google.com 2,youtube.com 3,facebook.com 4,baidu.com 5,wikipedia.org 6,yahoo.com 7,qq.com 8,taobao.com 9,tmall.com 10,twitter.com 11,google.co.in 12,instagram.com 13,sohu.com 14,amazon.com 15,vk.com 16,jd.com 17,live.com 18,yandex.ru 19,reddit.com 20,sina.com.cn 21,weibo.com 22,360.cn 23,login.tmall.com 24,google.co.jp 25,blogspot.com 26,google.com.hk 27,linkedin.com 28,google.com.br 29,netflix.com 30,pornhub.com 31,google.co.uk 32,csdn.net
【代码】
# -*- encoding:utf-8 -*- import urllib2 import robotparser import urlparse import time import bs4 import requests import os import csv import threading import multiprocessing from lxml import etree from bs4 import BeautifulSoup def download(url, user_agent="wswp", delay=10, num_retries=5): ''' 功能:下载网页,考虑客户端代理和延迟 ''' print "download: %s" % url # 设置代理 headers = {"User-agent": user_agent} request = urllib2.Request(url, headers=headers) try: # 如果不设置超时,系统很容易成假死状态 html = urllib2.urlopen(request, None, 5).read() except Exception as e: html = None # 第1次下载失败,经过多次下载 if num_retries > 0: # 重新下载时,进行一段时间的推迟 time.sleep(delay) html = download(url, user_agent, delay, num_retries - 1) # print html return html def get_url(max_num=32): ''' 功能:获取url的数量 ''' url_list = list() csv_read = csv.reader(open("top-1m.csv")) num_list = [1, 2, 3, 10, 11, 12, 19, 23, 24, 25, 26, 28, 30, 31] for row in csv_read: num = int(row[0]) if num <= max_num and num not in num_list: url_list.append("https://" + "www." + row[1]) elif num in num_list: continue else: break return url_list def serial_download(): ''' 串行进行下载 ''' for url in get_url(): html = download(url) def thread_download(thread_num=5): ''' 功能: 开启多线程进行下载 ''' # 用来存储线程 thread_list = [] for url in get_url(): t = threading.Thread(target=download, args=(url, )) t.start() thread_list.append(t) # 开启的线程数 while len(thread_list) == thread_num: for t in thread_list: if not t.isAlive(): thread_list.remove(t) # 等待线程结束 for t in thread_list: t.join() def process_download(process_num=5): ''' 功能:开启多进程进行下载 ''' # 维持执行的进程总数为process_num, 当一个进程执行完毕后会添加新的进程进去 pool = multiprocessing.Pool(processes=process_num) for url in get_url(): # apply:阻塞的,等待子进程结束后,才执行主程序 pool.apply(download, (url, )) # 调用join之前,先调用close函数,否则会出错。执行完close后不会有新的进程加入pool,join函数等待所有子进程结束 pool.close() pool.join() start = time.time() serial_download() end = time.time() print "串行下载的时间", end - start time.sleep(10) start1 = time.time() thread_download(5) end1 = time.time() print "并行(线程)下载的时间", end1 - start1 time.sleep(10) start2 = time.time() process_download(5) end2 = time.time() print "并行(进程)下载的时间", end2 - start2
【运行结果--与网络也存在很大的关系】
download: https://www.baidu.com download: https://www.wikipedia.org download: https://www.wikipedia.org download: https://www.yahoo.com download: https://www.qq.com download: https://www.taobao.com download: https://www.tmall.com download: https://www.sohu.com download: https://www.amazon.com download: https://www.vk.com download: https://www.jd.com download: https://www.live.com download: https://www.yandex.ru download: https://www.sina.com.cn download: https://www.weibo.com download: https://www.360.cn download: https://www.linkedin.com download: https://www.netflix.com download: https://www.csdn.net 串行下载的时间 60.4148490429 download: https://www.baidu.com download: https://www.wikipedia.org download: https://www.yahoo.com download: https://www.qq.com download: https://www.taobao.com download: https://www.tmall.com download: https://www.sohu.com download: https://www.amazon.com download: https://www.vk.com download: https://www.jd.com download: https://www.live.com download: https://www.yandex.ru download: https://www.sina.com.cn download: https://www.weibo.com download: https://www.360.cn download: https://www.linkedin.com download: https://www.netflix.com download: https://www.csdn.net 并行(线程)下载的时间 7.77214312553 download: https://www.baidu.com download: https://www.wikipedia.org download: https://www.yahoo.com download: https://www.qq.com download: https://www.taobao.com download: https://www.tmall.com download: https://www.tmall.com download: https://www.sohu.com download: https://www.amazon.com download: https://www.vk.com download: https://www.jd.com download: https://www.live.com download: https://www.yandex.ru download: https://www.sina.com.cn download: https://www.weibo.com download: https://www.360.cn download: https://www.linkedin.com download: https://www.netflix.com download: https://www.csdn.net 并行(进程)下载的时间 59.1667320728
参考:
1. https://www.cnblogs.com/fengxuehuanlin/p/7546461.html