并发03--线程01:线程介绍、开启、方法、CPython全局解释器
一 线程
1 什么是线程
进程:cpu最小的资源单位
线程:进程的执行单位
# 进程:是并发执行的程序在执行过程中分配和管理资源的基本单位,是一个动态概念,竞争计算机系统资源的基本单位。
# 线程:是进程的一个执行单元,是进程内科调度实体。比进程更小的独立运行的基本单位。线程也被称为轻量级进程。
将操作系统比喻成一个大的工厂,那么进程就相当于工厂里面的车间,而线程就是车间里面的流水线。
每一个进程肯定自带一个线程
再次总结:
进程:资源单位(起一个进程仅仅只是在内存空间中开辟一块独立的空间)
线程:执行单位(真正被CPU执行的其实就是进程里面的线程)
线程指的是代码的执行过程,执行代码中所需要使用到的资源都在所在的进程中寻找
进程和线程都是虚拟单位,只是为了我们更加方面的描述问题。
2 为何要有线程
# 开设进程
1.申请内存空间 耗资源
2.“拷贝代码” 耗资源
# 开设线程
一个进程内可以开设多个线程,在同一个进程内 开设多个线程 无需再次申请内存空间及拷贝代码的操作。
# 总结:
1.开设线程的开销要远远的小于进程的开销
2.同一个进程下的多个线程数据是共享的
# 例:我们要开发一款文本编辑器:
获取用户输入的功能
实时展示到屏幕的功能
自动保存到硬盘的功能
针对上面这三个功能,开设进程还是线程合适?
:开三个线程分别处理上面的三个功能更加合理(节约资源,且数据共享,无需隔离)
3 线程使用
1.开启线程的两种方式
from multiprocessing import Process
from threading import Thread
import time
# 第一种 函数式,常用
def task(name):
print('{} is running'.format(name))
time.sleep(2)
print('{} is over'.format(name))
# 注意:虽然开启线程不需要在main下面执行代码,直接书写就行,
# 但好的习惯都是启动命令写在main下面
if __name__ == '__main__':
t = Thread(target=task, args=('egon', ))
t.start()
# p = Process(target=task, args=('egon', ))
# p.start()
# 线程对比进程发现:线程中几乎start 代码一执行,线程就创建了(egon is running 就打印了),进程中是先打印 ‘主’,再打印子进程。
# 因为创建线程的开销非常小,不需要同进程一样去申请内存空间等。
print('主')
# 第二种 类继承式
from threading import Thread
import time
class MyThread(Thread):
def __init__(self, name):
"""针对双下下划线开头和结尾的方法(__init__),统一读成 双下init"""
super().__init__()
self.name = name
def run(self):
print('{} is running'.format(self.name))
time.sleep(2)
print('{} is over'.format(self.name))
if __name__ == '__main__':
t = MyThread('egon')
t.start()
print('主')
2.TCP服务端实现并发的效果
"""服务端"""
import socket
from threading import Thread
from multiprocessing import Process
"""
服务端的特点:1.要有固定的IP和PORT 2.一直服务 3.能够支持并发
"""
# 要学会看源码的习惯
server = socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 默认不写参数就是TCP协议
server.bind(('127.0.0.1', 8080))
server.listen(5)
def task(conn, addr):
# 通信循环
while True:
try:
data = conn.recv(1024)
# 针对mac Linux 客户端断开连接后,一直收空
if len(data) == 0:break
print('收到客服端:{}的数据:{}'.format(addr, data.decode('utf-8')))
conn.send(data.upper())
except ConnectionError as e:
print(e)
break
# conn.close() # 若放在这个位置,收到客户端数据一次,就断开了,第二次循环就会报错
conn.close()
while True:
conn, addr = server.accept() # 不停的接受客户端
# 开启多线程或多进程,进行通信循环,就实现并发的效果(多个客户端都同时在通信)
# 不会等一个客户端处理完了,再下一个
t = Thread(target=task, args=(conn, addr))
# t = Process(target=task, args=(conn, addr))
t.start()
"""客户端"""
import socket
client = socket.socket()
client.connect(('127.0.0.1', 8080))
while True:
client.send(b'hello word')
msg = client.recv(1024)
print(msg.decode('utf-8'))
3.线程对象的join方法
from threading import Thread
import time
def task(name):
print('{} is running'.format(name))
time.sleep(2)
print('{} is over'.format(name))
if __name__ == '__main__':
t = Thread(target=task, args=('egon', ))
t.start()
t.join() # 主线程等待子线程运行结束再执行
print('主')
4.同一个进程下的多个线程间数据是共享的
from threading import Thread
from multiprocessing import Process
money = 100
def task():
# 申明是修改主线程的money,不然变成新创建money
global money
money = 666
print('子线程中的money:{}'.format(money))
if __name__ == '__main__':
t = Thread(target=task)
t.start()
print('主线程中的money:{}'.format(money)) # 主线程中的money:666
# p = Process(target=task)
# p.start()
# print('主进程中的money:{}'.format(money)) # 主进程中的money:100
5.线程对象属性及其他方法
from threading import Thread, active_count, current_thread
import os, time
def task():
# print('hello world', os.getpid())
print('hello world', current_thread().name)
if __name__ == '__main__':
t = Thread(target=task) # 子线程的进程号
t.start()
print('主', active_count()) # 统计当前正在活跃的线程数
# print('主', os.getpid()) # 主线程的进程号 和 子线程的进程号 说明是同一进程
# print('主', current_thread().name) # 当前线程的名字
6.守护线程
from threading import Thread
import time
def task(name):
print('{} is running'.format(name))
time.sleep(2)
print('{} is over'.format(name))
if __name__ == '__main__':
t = Thread(target=task, args=('name',))
t.daemon = True # 设置成守护子线程,主线程结束,其马上就结束
t.start()
print('主')
"""
主线程运行结束之后,不会离开结束,会等待所有其他 非守护子线程 结束才会结束。
因为主线程的结束意味着所在的进程结束
"""
# 稍微具有一点迷惑性的案例:
def foo():
print(123)
time.sleep(1)
print('end123')
def func():
print(466)
time.sleep(3)
print('end456')
if __name__ == '__main__':
t1 = Thread(target=foo)
t2 = Thread(target=func)
t1.daemon = True
t1.start()
t2.start()
print('主...')
"""
打印结果:
123
466
主...
end123
end456
分析:t1 是守护线程,但是主线程会等待所有非守护线程(t2)结束才结束,而t2花费时间大于t1,所以所有结果都会打印
"""
7.线程互斥锁
from threading import Thread, Lock
import time
money = 100
mutex = Lock()
def task():
global money
mutex.acquire() # 获得锁
tmp = money
time.sleep(0.1)
money = tmp - 1
mutex.release() # 激活锁
if __name__ == '__main__':
t_list = []
for i in range(100):
t = Thread(target=task)
t.start()
t_list.append(t)
for t in t_list:
t.join()
print(money) # 99
# 多个线程操作同一个数据时,需要对数据操作部分进行加锁处理。
二 GIL全局解释器锁
Global Interpreter Lock
"""
In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple
native threads from executing Python bytecodes at once. This lock is necessary mainly
because CPython’s memory management is not thread-safe. (However, since the GIL
exists, other features have grown to depend on the guarantees that it enforces.)
"""
# python解释器其实有多个版本
Cpython # 存在GIL锁
Jpython # 不存在GIL锁
Pypypython # 没有GIL锁,性能比CPython还快一些
但是普遍使用的都是CPython解释器
# 为什么cpython存在这个问题GIL,我们大量的使用?
大量的第三方模块,内置模块都是基于cpython写起来的
# 为什么CPython解释器要设置全局解释器锁GIL
因为cpython中的内存管理,不是线程安全的
# 内存管理(垃圾回收机制)
1.引用计数:变量值若是被变量名赋值引用,就计数;若是计数为0,就删除。
2.标记清除:主要是解决容器类型产生循环引用的问题。
若是通过栈区能在堆区找到直接或间接的被引用对象,就标记为存活对象,然后遍历堆区,将不是存活对象清除。
3.分代回收:“空间换时间”策略。
核心思想:多次遍历扫描后,都没有被回收的变量值,默认它是常用变量,
然后就降低对其的扫描频率。分级,加权重-升级(权重越多,扫描频率越低)
# 在CPython解释器中,GIL其实就是一把互斥锁(把原来本应该并行的,变成串行),用来阻止同一个进程下的多个线程的同时执行
同一个进程下的多个线程无法利用多核优势!!!
# 疑问:python的多线程是不是一点用都没有??? # 不是,只是无法利用多核CPU的优势,但也可以提升IO处理
# Cpython解释器中,多线程的运行逻辑: # 线程必须抢到GIL锁,才能运行
线程是cpu调度的最小单位,一个进程下起了3个线程,在同一进程下,同一时刻,只有一条线程在执行,所以不能利用多核优势
# 多进程与多线程的实质:
1.多进程(开跟cpu核数相同数量的进程):
GIL只能锁住当前python解释器所在的进程内 的线程,多个进程内的线程还是会被多个cpu调度执行,所以cpu会百分百占满
2.多线程(开跟cpu核数相同数量的线程):
由于有GIL锁,其实同一时刻只有一条线程在执行,所以cpu肯定不会百分百被使用
# 总结: 只存在于cpython解释器
计算密集型(用cpu) 开多进程
io密集型(不太用cpu) 开多线程
# 不同版本Python 释放GIL
python2中 遇到IO或者代码执行了一定的行数 会释放GIL锁
python3中 遇到IO或者代码执行了一定的时间 会释放GIL锁
# 重点:
1.GIL不是python的特点而是CPython解释器的特点
2.GIL是保证解释器级别的数据 安全
3.GIL会导致同一个进程下的多个线程无法同时执行 即无法利用多核优势(******)
4.针对不同的数据还是需要加不同的锁处理
5.解释型语言的通病:同一个进程下多个线程无法利用多核优势
1 GIL与普通互斥锁的区别
from threading import Thread,Lock
import time
mutex = Lock()
money = 100
def task():
global money
# with mutex:
# tmp = money
# time.sleep(0.1)
# money = tmp -1
mutex.acquire()
tmp = money
time.sleep(0.1) # 只要你进入IO了 GIL会自动释放
money = tmp - 1
mutex.release()
if __name__ == '__main__':
t_list = []
for i in range(100):
t = Thread(target=task)
t.start()
t_list.append(t)
for t in t_list:
t.join()
print(money)
# 执行逻辑:
100个线程起起来之后 要先去抢GIL
我进入io操作(time.sleep) GIL自动释放 但是我手上还有一个自己的互斥锁
其他线程虽然抢到了GIL但是抢不到互斥锁
最终GIL还是回到你的手上 你去操作数据
2 同一个进程下的多线程无法利用多核优势,是不是就没有用了
"""
多线程是否有用要看具体情况
单核:四个任务(IO密集型\计算密集型)
多核:四个任务(IO密集型\计算密集型)
"""
# 计算密集型 每个任务都需要10s
单核(不用考虑了)
多进程:额外的消耗资源 # 申请内存空间等
多线程:节省开销
多核
多进程:总耗时 10+ # 多个CPU同时进程运行
多线程:总耗时 40+ # 一个CPU一个进程中 多个线程执行
# IO密集型
多核
多进程:相对浪费资源
多线程:更加节省资源
代码验证
# 计算密集型
from multiprocessing import Process
from threading import Thread
import os,time
def work():
res = 0
for i in range(10000000):
res *= i
if __name__ == '__main__':
l = []
print(os.cpu_count()) # 获取当前计算机CPU个数
start_time = time.time()
for i in range(12):
p = Process(target=work) # 1.4679949283599854
t = Thread(target=work) # 5.698534250259399
t.start()
# p.start()
# l.append(p)
l.append(t)
for p in l:
p.join()
print(time.time()-start_time)
# IO密集型
from multiprocessing import Process
from threading import Thread
import os,time
def work():
time.sleep(2)
if __name__ == '__main__':
l = []
print(os.cpu_count()) # 获取当前计算机CPU个数
start_time = time.time()
for i in range(4000):
# p = Process(target=work) # 21.149890184402466
t = Thread(target=work) # 3.007986068725586
t.start()
# p.start()
# l.append(p)
l.append(t)
for p in l:
p.join()
print(time.time()-start_time)
三 进程/线程总结
# 只存在于cpython解释器
多进程:适用于计算密集型 # 用cpu
多线程:适用于IO密集型 # 不太用cpu,只是输入输出
多进程和多线程都有各自的优势,并且我们后面在写项目的时候通常可以
多进程下面再开设多线程,这样的话既可以利用多核也可以减少资源消耗

浙公网安备 33010602011771号