多线程基本知识

本文主要介绍多线程的相关知识。

基本概念

并发与并行

并发：虚假并行。即是多个任务的占用同一资源，CPU交替处理。某一时间段内同时执行多个任务，某一时刻只执行单个任务。由操作系统进行多任务时间分配，需要进行不同的任务切换。任务切换本身需要一定时间。（单核CPU）

并行：真实并行，某一时间段与某一时刻均可执行多个任务。（多核CPU）

并发与并行可以提高性能。因为CPU的处理速度远高于信息交换的速度，因此会出现在处理同一任务时CPU等待信息交换的情况，此时处理其他已经加载好数据的任务是合理的。

可执行程序

可以执行某项任务的文件。

进程

一个正在运行的程序，程序运行的一个实例。一个程序可以有多个进程，如同时开多个word，但是每个进程只对应一个程序。程序就是文件，只是文件。

进程与可执行程序是多对一的关系。

线程

每个进程都有一个主线程，主线程是唯一的。主线程与进程是一一对应关系。

但是线程和进程是多对一的关系：一个进程可以有多个线程。

同一进程的多个线程共享同进程的资源。

线程不是越多越好，线程需要独立的堆栈空间，同时不同线程的切换也需要时间。

并发实现

多进程并发

同时启动多个程序。

进程之间通信：

同一电脑：管道、文件共享、消息队列、共享内存等
不同电脑：socket等

多线程并发

单个进程中创建多个线程。一个进程中的所有线程共享地址空间（共享内存）。共享全局变量、指针、引用等。

锁

锁是实现多线程通信的关键点。多线程是通过共享内存实现相互之间通信的。一般而言，这个变量在A线程中体现为只写，在B线程中体现为只读。如何避免在A线程写入过程中B线程的读和B在读的过程中A线程的写就要通过锁来实现。因为普通变量的读取和写入是可以被中断的过程，很有可能B线程正在读，然后变量值就被A修改了，那么B读到的就是修改后的值，会出现问题。

锁，顾名思义就是给共享内存加锁以实现保护。在进行读写之前必学要进行加锁。

加锁和解锁的过程属于操作系统内核函数，不允许被中断。这样就保证了对同一个锁变量访问不会出现问题。

死锁

所谓死锁，就是指不同线程之间相互等待。举例来说有AB两个线程，a和b两个共享变量。A对a加了锁还没有释放，现在要访问b，就要对b进行加锁，而b已经被B加锁还未释放，这么A就要阻塞等待B释放b的锁。而B此时就在等待对a的访问需要对其进行加锁，但a被A保持，因此B也陷入阻塞等待。这就形成了循环等待的死锁。

信号量

信号量也是实现线程通信的机制之一。信号量是为了体现资源数量而产生的。使用信号量的地方往往资源数量大于一。

举例生产者消费者问题来说，有一个缓冲区H可以容纳三个int。有5个进程ABCDE要通过缓冲区H进行相互通信。其中AB线程只对H写，也即是生产者。CDE只对H进行读操作，也即是消费者。当H一旦有空闲区域，AB线程就要可以对空白区域写入。CDE一旦发现有未读过的数字产生，就可以进行读取。这就需要引入信号量机制了。

对H加两个信号量，readCount=0（初始时没有可供读取的资源）, writeCount=3（初始时有三个缓冲区可供写入）。

首先AB线程要加锁访问（非官方术语，自己造的，不知道怎么表述了）信号量writeCount（这时writeCount--，信号量本身的机制保证了同时只会有一个线程对writeCount进行操作，且操作本身不可中断，这是由系统决定的。信号量小于等于0时，线程将被阻塞等待）。然后可以对缓冲区进行写入操作，（对H进行读写时还是要设置锁，保证每次只能有一个线程对H进行访问）。写入之后，对readCount进行解锁（借用锁的概念，不知道官方术语怎么说，自己造了一个词汇。所谓解锁即是readCount++，上文提到信号量值小于等于0时，线程被阻塞，大于0的时候线程就可以继续运行了）。

当readCount>0的时候，读线程这时会被唤醒，对缓冲区进行读操作（对缓冲区加锁访问），读结束之后即可对writeCount解锁（即是信号量++）。

这样通过信号量和锁机制就解决了生产者消费者问题。这是操作系统经典问题，浅尝辄止，不建议深究。

线程调度

线程之间的通信由锁和信号量进行。线程之间的通信就是用户本身实现的辅助操作系统进行线程调度的。操作系统依据线程通信来对线程就行调度。

在单核状态下，多线程是被操作系统轮流调度执行的，即并发。多核CPU可以实现真正的并行。

注意事项

线程越多越好吗？什么时候才有必要用多线程？

线程必然不是越多越好，线程切换也是要开销的，当你增加一个线程的时候，增加的额外开销要小于该线程能够消除的阻塞时间，这才叫物有所值。

Linux自从2.6内核开始，就会把不同的线程交给不同的核心去处理。Windows也从NT.4.0开始支持这一特性。

什么时候该使用多线程呢？这要分四种情况讨论：

a.多核CPU——计算密集型任务。此时要尽量使用多线程，可以提高任务执行效率，例如加密解密，数据压缩解压缩（视频、音频、普通数据），否则只能使一个核心满载，而其他核心闲置。

b.单核CPU——计算密集型任务。此时的任务已经把CPU资源100%消耗了，就没必要也不可能使用多线程来提高计算效率了；相反，如果要做人机交互，最好还是要用多线程，避免用户没法对计算机进行操作。

c.单核CPU——IO密集型任务，使用多线程还是为了人机交互方便，

d.多核CPU——IO密集型任务，这就更不用说了，跟单核时候原因一样。

CPU数量、核心数量与线程的关系

单核CPU上运行的多线程程序, 同一时间只能一个线程在跑, 系统帮你切换线程而已, 系统给每个线程分配时间片来执行, 每个时间片大概10ms左右, 看起来像是同时跑, 但实际上是每个线程跑一点点就换到其它线程继续跑

线程编程的关键问题

避免死锁
严格设计线程运行流程，尽最大可能实现利用线程对CPU的压榨，不要多线程的实现不仅没有提升性能，反而降低性能
避免多线程的运行变成单线程

新手很容易出现这个问题，明明是要设计多线程，但是设计完一运行其实还是顺序执行，没有实现并行。

线程切换本身消耗比较大，对于不必要代码段没必要设计单独线程

学习资源推荐

通过调用库函数实现多线程本身并不困难。真正难的是如何对线程进行管理和控制，也即是如何实现不同进程之间的有效通信。在学习过程千万不要陷进去，学会用即可。不要理论知识纠缠太多，简单理解就成。在实践中深化对多线程编程的认识。

目前队内使用的是pthread库（仅在Linux可以使用），c++11之后也提供了多线程编程的官方库（跨平台）。从学习的角度讲，使用什么库并没有什么影响，关键要学会如何进行线程管理。

C++11多线程编程是视频介绍，建议大家先简单学习这里的内容，相对来说比较完整，是上述概念的一个实践。英语听力比较好的也可以看下面这个教程C++ Threading。同时，对于c++11的相关函数的介绍可以参阅C++多线程编程。

看完之后，可以看下面的网页了解pthread编程：

Pthreads入门教程

POSIX多线程设计

posted @ 2020-11-28 12:14 LightningStar 阅读(391) 评论(0) 收藏举报

刷新页面返回顶部

LightningStar