并发03--线程01：线程介绍、开启、方法、CPython全局解释器

一线程

1 什么是线程

进程：cpu最小的资源单位
线程：进程的执行单位

# 进程：是并发执行的程序在执行过程中分配和管理资源的基本单位，是一个动态概念，竞争计算机系统资源的基本单位。
# 线程：是进程的一个执行单元，是进程内科调度实体。比进程更小的独立运行的基本单位。线程也被称为轻量级进程。

将操作系统比喻成一个大的工厂，那么进程就相当于工厂里面的车间，而线程就是车间里面的流水线。

每一个进程肯定自带一个线程

再次总结：
    进程：资源单位（起一个进程仅仅只是在内存空间中开辟一块独立的空间）
    线程：执行单位（真正被CPU执行的其实就是进程里面的线程）
         线程指的是代码的执行过程，执行代码中所需要使用到的资源都在所在的进程中寻找
	
    进程和线程都是虚拟单位，只是为了我们更加方面的描述问题。

2 为何要有线程

# 开设进程
  1.申请内存空间	耗资源
  2.“拷贝代码”	 耗资源
	
# 开设线程
  一个进程内可以开设多个线程，在同一个进程内 开设多个线程 无需再次申请内存空间及拷贝代码的操作。

# 总结：
  1.开设线程的开销要远远的小于进程的开销
  2.同一个进程下的多个线程数据是共享的

    
# 例：我们要开发一款文本编辑器：
    获取用户输入的功能
    实时展示到屏幕的功能
    自动保存到硬盘的功能
    
针对上面这三个功能，开设进程还是线程合适？
：开三个线程分别处理上面的三个功能更加合理（节约资源，且数据共享，无需隔离）

3 线程使用

1.开启线程的两种方式

from multiprocessing import Process
from threading import Thread
import time


# 第一种 函数式，常用
def task(name):
    print('{} is running'.format(name))
    time.sleep(2)
    print('{} is over'.format(name))


# 注意：虽然开启线程不需要在main下面执行代码，直接书写就行，
# 但好的习惯都是启动命令写在main下面
if __name__ == '__main__':
    t = Thread(target=task, args=('egon', ))
    t.start()

    # p = Process(target=task, args=('egon', ))
    # p.start()

# 线程对比进程发现：线程中几乎start 代码一执行，线程就创建了(egon is running 就打印了)，进程中是先打印 ‘主’，再打印子进程。
# 因为创建线程的开销非常小，不需要同进程一样去申请内存空间等。
print('主')


# 第二种 类继承式
from threading import Thread
import time


class MyThread(Thread):
    def __init__(self, name):
        """针对双下下划线开头和结尾的方法(__init__)，统一读成 双下init"""
        super().__init__()
        self.name = name

    def run(self):
        print('{} is running'.format(self.name))
        time.sleep(2)
        print('{} is over'.format(self.name))


if __name__ == '__main__':
    t = MyThread('egon')
    t.start()
    print('主')

2.TCP服务端实现并发的效果

"""服务端"""
import socket
from threading import Thread
from multiprocessing import Process

"""
服务端的特点：1.要有固定的IP和PORT 2.一直服务 3.能够支持并发
"""

# 要学会看源码的习惯
server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)  # 默认不写参数就是TCP协议
server.bind(('127.0.0.1', 8080))
server.listen(5)


def task(conn, addr):
    # 通信循环
    while True:
        try:
            data = conn.recv(1024)
            # 针对mac Linux 客户端断开连接后，一直收空
            if len(data) == 0:break
            print('收到客服端:{}的数据：{}'.format(addr, data.decode('utf-8')))
            conn.send(data.upper())
        except ConnectionError as e:
            print(e)
            break
        # conn.close()  # 若放在这个位置，收到客户端数据一次，就断开了，第二次循环就会报错
    conn.close()


while True:
    conn, addr = server.accept()  # 不停的接受客户端
    # 开启多线程或多进程，进行通信循环，就实现并发的效果（多个客户端都同时在通信）
    # 不会等一个客户端处理完了，再下一个
    t = Thread(target=task, args=(conn, addr))
    # t = Process(target=task, args=(conn, addr))
    t.start()
    
"""客户端"""
import socket

client = socket.socket()
client.connect(('127.0.0.1', 8080))

while True:
    client.send(b'hello word')
    msg = client.recv(1024)
    print(msg.decode('utf-8'))

3.线程对象的join方法

from threading import Thread
import time


def task(name):
    print('{} is running'.format(name))
    time.sleep(2)
    print('{} is over'.format(name))


if __name__ == '__main__':
    t = Thread(target=task, args=('egon', ))
    t.start()
    t.join()  # 主线程等待子线程运行结束再执行
    print('主')

4.同一个进程下的多个线程间数据是共享的

from threading import Thread
from multiprocessing import Process

money = 100


def task():
    # 申明是修改主线程的money，不然变成新创建money
    global money
    money = 666
    print('子线程中的money:{}'.format(money))


if __name__ == '__main__':
    t = Thread(target=task)
    t.start()
    print('主线程中的money:{}'.format(money))  # 主线程中的money:666

    # p = Process(target=task)
    # p.start()
    # print('主进程中的money:{}'.format(money))  # 主进程中的money:100

5.线程对象属性及其他方法

from threading import Thread, active_count, current_thread
import os, time


def task():
    # print('hello world', os.getpid())
    print('hello world', current_thread().name)


if __name__ == '__main__':
    t = Thread(target=task)  # 子线程的进程号
    t.start()

    print('主', active_count())  # 统计当前正在活跃的线程数
    # print('主', os.getpid())  # 主线程的进程号 和 子线程的进程号 说明是同一进程
    # print('主', current_thread().name)  # 当前线程的名字

6.守护线程

from threading import Thread
import time


def task(name):
    print('{} is running'.format(name))
    time.sleep(2)
    print('{} is over'.format(name))


if __name__ == '__main__':
    t = Thread(target=task, args=('name',))
    t.daemon = True  # 设置成守护子线程，主线程结束，其马上就结束
    t.start()
    print('主')

"""
主线程运行结束之后，不会离开结束，会等待所有其他 非守护子线程 结束才会结束。
    因为主线程的结束意味着所在的进程结束
"""

# 稍微具有一点迷惑性的案例：
def foo():
    print(123)
    time.sleep(1)
    print('end123')


def func():
    print(466)
    time.sleep(3)
    print('end456')


if __name__ == '__main__':
    t1 = Thread(target=foo)
    t2 = Thread(target=func)

    t1.daemon = True
    t1.start()
    t2.start()
    print('主...')
    
    """
    打印结果：
        123
        466
        主...
        end123
        end456
分析：t1 是守护线程，但是主线程会等待所有非守护线程（t2）结束才结束，而t2花费时间大于t1，所以所有结果都会打印
    """

7.线程互斥锁

from threading import Thread, Lock
import time

money = 100
mutex = Lock()


def task():
    global money
    mutex.acquire()  # 获得锁
    tmp = money
    time.sleep(0.1)
    money = tmp - 1
    mutex.release()  # 激活锁


if __name__ == '__main__':
    t_list = []
    for i in range(100):
        t = Thread(target=task)
        t.start()
        t_list.append(t)
    for t in t_list:
        t.join()
    print(money)  # 99

# 多个线程操作同一个数据时，需要对数据操作部分进行加锁处理。

二 GIL全局解释器锁

Global Interpreter Lock
"""
In CPython, the global interpreter lock, or GIL, is a mutex that prevents multiple 
native threads from executing Python bytecodes at once. This lock is necessary mainly 
because CPython’s memory management is not thread-safe. (However, since the GIL 
exists, other features have grown to depend on the guarantees that it enforces.)
"""

# python解释器其实有多个版本
    Cpython   # 存在GIL锁
    Jpython   # 不存在GIL锁
    Pypypython  # 没有GIL锁，性能比CPython还快一些
但是普遍使用的都是CPython解释器


# 为什么cpython存在这个问题GIL，我们大量的使用？
    大量的第三方模块，内置模块都是基于cpython写起来的


# 为什么CPython解释器要设置全局解释器锁GIL
    因为cpython中的内存管理，不是线程安全的

    # 内存管理(垃圾回收机制)
      1.引用计数：变量值若是被变量名赋值引用，就计数；若是计数为0，就删除。
      2.标记清除：主要是解决容器类型产生循环引用的问题。
          若是通过栈区能在堆区找到直接或间接的被引用对象，就标记为存活对象，然后遍历堆区，将不是存活对象清除。
      3.分代回收：“空间换时间”策略。
          核心思想：多次遍历扫描后，都没有被回收的变量值，默认它是常用变量，
          然后就降低对其的扫描频率。分级，加权重-升级（权重越多，扫描频率越低）


# 在CPython解释器中，GIL其实就是一把互斥锁(把原来本应该并行的，变成串行)，用来阻止同一个进程下的多个线程的同时执行
    同一个进程下的多个线程无法利用多核优势！！！

    # 疑问:python的多线程是不是一点用都没有？？？  # 不是，只是无法利用多核CPU的优势，但也可以提升IO处理


# Cpython解释器中，多线程的运行逻辑：   # 线程必须抢到GIL锁，才能运行
    线程是cpu调度的最小单位，一个进程下起了3个线程，在同一进程下，同一时刻，只有一条线程在执行，所以不能利用多核优势



# 多进程与多线程的实质：
    1.多进程(开跟cpu核数相同数量的进程)：
        GIL只能锁住当前python解释器所在的进程内 的线程，多个进程内的线程还是会被多个cpu调度执行，所以cpu会百分百占满

    2.多线程(开跟cpu核数相同数量的线程)：
        由于有GIL锁，其实同一时刻只有一条线程在执行，所以cpu肯定不会百分百被使用
    
    # 总结：  只存在于cpython解释器
      计算密集型（用cpu）   开多进程
      io密集型(不太用cpu)  开多线程


# 不同版本Python 释放GIL
    python2中  遇到IO或者代码执行了一定的行数    会释放GIL锁
    python3中  遇到IO或者代码执行了一定的时间    会释放GIL锁



# 重点:
    1.GIL不是python的特点而是CPython解释器的特点
    2.GIL是保证解释器级别的数据 安全
    3.GIL会导致同一个进程下的多个线程无法同时执行  即无法利用多核优势(******)
    4.针对不同的数据还是需要加不同的锁处理 
    5.解释型语言的通病:同一个进程下多个线程无法利用多核优势

1 GIL与普通互斥锁的区别

from threading import Thread,Lock
import time


mutex = Lock()
money = 100


def task():
    global money
    # with mutex:
    #     tmp = money
    #     time.sleep(0.1)
    #     money = tmp -1
    mutex.acquire()
    tmp = money
    time.sleep(0.1)  # 只要你进入IO了 GIL会自动释放
    money = tmp - 1
    mutex.release()


if __name__ == '__main__':
    t_list = []
    for i in range(100):
        t = Thread(target=task)
        t.start()
        t_list.append(t)
    for t in t_list:
        t.join()
    print(money)

    
# 执行逻辑：
  100个线程起起来之后  要先去抢GIL
  我进入io操作（time.sleep） GIL自动释放 但是我手上还有一个自己的互斥锁
  其他线程虽然抢到了GIL但是抢不到互斥锁 
  最终GIL还是回到你的手上 你去操作数据

2 同一个进程下的多线程无法利用多核优势,是不是就没有用了

"""
多线程是否有用要看具体情况
单核:四个任务(IO密集型\计算密集型)
多核:四个任务(IO密集型\计算密集型)
"""

# 计算密集型   每个任务都需要10s
单核(不用考虑了)
    多进程:额外的消耗资源  # 申请内存空间等
    多线程:节省开销

多核
    多进程:总耗时 10+  # 多个CPU同时进程运行
    多线程:总耗时 40+  # 一个CPU一个进程中 多个线程执行
        
# IO密集型  
多核
    多进程:相对浪费资源
    多线程:更加节省资源

代码验证

# 计算密集型
from multiprocessing import Process
from threading import Thread
import os,time

def work():
    res = 0
    for i in range(10000000):
        res *= i

if __name__ == '__main__':
    l = []
    print(os.cpu_count())  # 获取当前计算机CPU个数
    start_time = time.time()
    for i in range(12):
        p = Process(target=work)  # 1.4679949283599854
        t = Thread(target=work)  # 5.698534250259399
        t.start()
        # p.start()
        # l.append(p)
        l.append(t)
    for p in l:
        p.join()
    print(time.time()-start_time)



# IO密集型
from multiprocessing import Process
from threading import Thread
import os,time


def work():
    time.sleep(2)

if __name__ == '__main__':
    l = []
    print(os.cpu_count())  # 获取当前计算机CPU个数
    start_time = time.time()
    for i in range(4000):
        # p = Process(target=work)  # 21.149890184402466
        t = Thread(target=work)  # 3.007986068725586
        t.start()
        # p.start()
        # l.append(p)
        l.append(t)
    for p in l:
        p.join()
    print(time.time()-start_time)

三进程/线程总结

# 只存在于cpython解释器
    多进程：适用于计算密集型   # 用cpu
    多线程：适用于IO密集型     # 不太用cpu，只是输入输出

多进程和多线程都有各自的优势，并且我们后面在写项目的时候通常可以
     多进程下面再开设多线程，这样的话既可以利用多核也可以减少资源消耗

posted @ 2022-07-11 15:42 Edmond辉仔阅读(44) 评论(0) 收藏举报

刷新页面返回顶部

Edmond辉仔

并发03--线程01：线程介绍、开启、方法、CPython全局解释器

一 线程

1 什么是线程

2 为何要有线程

3 线程使用

1.开启线程的两种方式

2.TCP服务端实现并发的效果

3.线程对象的join方法

4.同一个进程下的多个线程间数据是共享的

5.线程对象属性及其他方法

6.守护线程

7.线程互斥锁

二 GIL全局解释器锁

1 GIL与普通互斥锁的区别

2 同一个进程下的多线程无法利用多核优势,是不是就没有用了

三 进程/线程总结

公告

一线程

三进程/线程总结