公告

20145214 《信息安全系统设计基础》第13周学习总结

Posted on 2016-12-10 21:55 20145214张宁阅读(280) 评论(2) 收藏举报

20145214 《信息安全系统设计基础》第13周学习总结

教材学习内容总结

并发编程

程序级并发——进程
函数级并发——线程

三种基本的构造并发程序的方法：

  1、进程：每个逻辑控制流是一个进程，由内核进行调度，进程有独立的虚拟地址空间

  2、I/O多路复用：逻辑流被模型化为状态机，所有流共享同一个地址空间

  3、线程：运行在单一进程上下文中的逻辑流，由内核进行调度，共享同一个虚拟地址空间

基于进程的并发编程

构造并发程序最简单的方法——用进程。常用函数如下：fork，exec，waitpid
构造并发服务器：在父进程中接受客户端连接请求，然后创建一个新的子进程来为每个新客户端提供服务。

需要注意的事情：

  1.父进程需要关闭它的已连接描述符的拷贝（子进程也需要关闭）

  2.必须要包括一个SIGCHLD处理程序来回收僵死子进程的资源

  3.父子进程之间共享文件表，但是不共享用户地址空间

独立地址空间的优点是防止虚拟存储器被错误覆盖，缺点是开销高，共享状态信息才需要IPC机制

基于I/O多路复用的并发编程

I/O多路复用技术使用select函数要求内核挂起进程，只有在一个或多个I/O事件发生后，才将控制返回给应用程序。
select函数处理类型为fd_set的集合，即描述符集合，并在逻辑上描述为一个大小为n的位向量，每一位b[k]对应描述符k，但当且仅当b[k]=1，描述符k才表明是描述符集合的一个元素。

描述符能做的三件事：

  1、分配他们
  2、将一个此种类型的变量赋值给另一个变量
  3、用FD_ZERO、FD_SET、FD_CLR和FD_ISSET宏指令来修改和检查它们

当且仅当一个从该描述符读取一个字节的请求不会阻塞时，描述符k表示准备好可以读了
我们必须在每次调用select时都更新读集合
事件驱动程序：将逻辑流模型化为状态机。
一个状态机就是一组状态、输入事件和转移，其中转移就是将状态和输入事件映射到状态。

基于I/O多路复用的并发事件驱动服务器的流程如下：

  •select函数检测到输入事件
  •add_client函数创建新状态机
  •check_clients函数执行状态转移（在课本的例题中是回送输入行），并且完成时删除该状态机。

基于线程的并发编程

线程：就是运行在进程上下文中的逻辑流。

线程由内核自动调度。每个线程都有它自己的线程上下文：

  •一个唯一的整数线程ID——TID
  •栈
  •栈指针
  •程序计数器
  •通用目的寄存器
  •条件码

线程执行模型

在每个进程开始生命周期时都是单一线程——主线程，与其他进程的区别仅有：它总是进程中第一个运行的线程。
对等线程是某时刻主线程创建，之后两个线程并发运行每个对等线程都能读写相同的共享数据。
主线程切换到对等线程的方式是上下文切换，对等线程执行一段时间后会控制传递回主线程，以此类推，切换的原因是：
```
  •主线程执行一个慢速系统调用，如read或sleep
  •被系统的间隔计时器中断
```

线程和进程的区别:

  •线程的上下文切换比进程快得多
  •组织形式：  •进程：严格的父子层次
  			•线程：一个进程相关线程组成对等（线程）池，和其他进程的线程独立开来。一个线程可以杀死它的任意对等线程，或者等待他的任意对等线程终止。

Posix线程

Posix线程是C程序中处理线程的一个标准接口。基本用法是：

  •线程的代码和本地数据被封装在一个线程例程中
  •每个线程例程都以一个通用指针为输入，并返回一个通用指针。

创建线程

创建线程：pthread_create函数，返回时参数tid包含新创建线程的ID
查看线程ID：pthread_self函数，返回调用者的线程ID（TID）

终止线程

终止线程的几个方式：

  •隐式终止：顶层的线程例程返回
  •显示终止：调用pthread_exit函数
  		*如果主线程调用，会先等待所有其他对等线程终止，再终止主线程和整个进程，返回值为pthread_return
  •某个对等线程调用Unix的exit函数，会终止进程与其相关线程
  •另一个对等线程通过以当前线程ID作为参数调用pthread_cancle来终止当前线程

回收已终止线程的资源

pthread_join函数等待其他线程终止
这个函数会阻塞，知道线程tid终止，将线程例程返回的(void*)指针赋值为thread_return指向的位置，然后回收已终止线程占用的所有存储器资源

分离线程
在任何一个时间点上，线程是可结合的，或是分离的。

可结合的线程

  •能够被其他线程收回其资源和杀死
  •被收回钱，它的存储器资源没有被释放
  •每个可结合线程要么被其他线程显式的收回，要么通过调用pthread_detach函数被分离

分离的线程

  •不能被其他线程回收或杀死
  •存储器资源在它终止时由系统自动释放

pthread_detach函数可以分离可结合线程tid。
线程能够通过以pthread_self()为参数的pthread_detach调用来分离他们自己。
每个对等线程都应该在他开始处理请求之前分离他自身，以使得系统能在它终止后回收它的存储器资源。

初始化线程
pthread_once函数允许你初始化与线程例程相关的状态，总是返回0.

一个基于线程的并发服务器
调用pthread_create时，用传递指针的方法将已连接描述符传递给对等进程
避免存储器泄露，必须分离每个线程，使它终止时它的存储器资源能被收回。

多线程程序中的共享变量

一个变量是共享的，当且仅当多个线程引用这个变量的某个实例

线程存储器模型
寄存器从不共享，虚拟存储器总是共享的

将变量映射到存储器
共享变量
变量v是共享的——当且仅当它的一个实例被一个以上的线程引用

用信号量同步线程

一般而言，没有办法预测操作系统是否将为你的线程选择一个正确的顺序。

进度图
进度图是将n个并发线程的执行模型化为一条n维笛卡尔空间中的轨迹线，原点对应于没有任何线程完成一条指令的初始状态。
当n=2时，状态比较简单，是比较熟悉的二维坐标图，横纵坐标各代表一个线程，而转换被表示为有向边

转换规则：

  •合法的转换是向右或者向上，即某一个线程中的一条指令完成
  •两条指令不能在同一时刻完成，即不允许出现对角线
  •程序不能反向运行，即不能出现向下或向左

而一个程序的执行历史被模型化为状态空间中的一条轨迹线。

线程循环代码的分解：

  •H：在循环头部的指令块
  •L：加载共享变量cnt到线程i中寄存器%eax的指令。
  •U：更新（增加）%eax的指令
  •S：将%eax的更新值存回到共享变量cnt的指令
  •T：循环尾部的指令块

几个概念：

  •临界区：对于线程i，操作共享变量cnt内容的指令L,U,S构成了一个关于共享变量cnt的临界区。
  •不安全区：两个临界区的交集形成的状态
  •安全轨迹线：绕开不安全区的轨迹线

信号量

信号量实现互斥的基本原理

  •两个或多个进程通过传递信号进行合作，可以迫使进程在某个位置暂时停止执行（阻塞等待），直到它收到一个可以“向前推进”的信号（被唤醒）；
  •将实现信号灯作用的变量称为信号量，常定义为记录型变量s，其一个域为整型，另一个域为队列，其元素为等待该信号量的阻塞进程(FIFO)。

  •信号量定义：

  type semaphore=record
   count: integer;
   queue: list of process
  end;
   var s:semaphore;

定义对信号量的两个原子操作——P和V

  P（wait）

  wait(s)
   s.count :=s.count-1;
   if s.count<0 then
   begin
  进程阻塞；
   进程进入s.queue队列；
  end;
  
  V（signal）
  
  signal(s)
  s.count :=s.count+1;
   if s.count ≤0 then
   begin
  唤醒队首进程；
   将进程从s.queue阻塞队列中移出;
  end;

需要注意的是，每个信号量在使用前必须初始化。
####使用信号量来实现互斥

基本思想是将每个共享变量（或者一组相关的共享变量）与一个信号量s（初始为1）联系起来，然后用P和V操作将相应的临界区包围起来。

几个概念

  •二元信号量：用这种方式来保护共享变量的信号量叫做二元信号量，取值总是0或者1.
  •互斥锁：以提供互斥为目的的二元信号量
  •加锁：对一个互斥锁执行P操作
  •解锁；对一个互斥锁执行V操作
  •计数信号量：被用作一组可用资源的计数器的信号量
  •禁止区：由于信号量的不变性，没有实际可能的轨迹能够包含禁止区中的状态。

利用信号量来调度共享资源

信号量有两个作用：实现互斥；调度共享资源

信号量分为：互斥信号量和资源信号量。

  互斥信号量用于申请或释放资源的使用权，常初始化为1；
  资源信号量用于申请或归还资源，可以初始化为大于1的正整数，表示系统中某类资源的可用个数。

常见问题有生产者-消费者问题，和读者-写者问题

其他并发问题

一个线程是安全的，当且仅当被多个并发线程反复的调用时，它会一直产生正确的结果。

四个不相交的线程不安全函数类以及应对措施：

  •不保护共享变量的函数——用P和V这样的同步操作保护共享变量
  •保持跨越多个调用的状态的函数——重写，不用任何static数据。
  •返回指向静态变量的指针的函数——①重写；②使用加锁-拷贝技术。
  •调用线程不安全函数的函数——参考之前三种

可重入性

当它们被多个线程调用时，不会引用任何共享数据。
显式可重入的：所有函数参数都是传值传递，没有指针，并且所有的数据引用都是本地的自动栈变量，没有引用静态或全剧变量。
隐式可重入的：调用线程小心的传递指向非共享数据的指针。

在线程化的程序中使用已存在的库函数
一句话，就是使用线程不安全函数的可重入版本，名字以_r为后缀结尾。

竞争
竞争发生的原因：一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的x点。也就是说，程序员假定线程会按照某种特殊的轨迹穿过执行状态空间，忘了一条准则规定：线程化的程序必须对任何可行的轨迹线都正确工作。
消除方法：动态的为每个整数ID分配一个独立的块，并且传递给线程例程一个指向这个块的指针

死锁
一组线程被阻塞了，等待一个永远也不会为真的条件。

代码实践过程记录

关于countwithmutex.c

首次编译时按照之前的方法编译，报错。根据错误提示，发现pthread库不是linux系统默认的库，因此pthread_creat创建线程时，在编译中要加上-lpthread参数。修正后顺利编译。

代码中涉及到的函数：

  pthread_creat：创建线程，若成功则返回0，若失败则返回出错编号。第一个参数为指向线程标识符的指针，创建成功时指向的内存单元被设置为新创建线程的线程ID；第二个参数设置线程属性；第三个参数是线程运行函数的起始地址；最后一个参数是运行函数的参数

  pthread_join：用来等待一个线程的结束。当函数返回时，被等待线程的资源被收回。

  pthread_mutex_lock：线程调用该函数让互斥锁上锁。成功锁定时返回0，其他任何返回值都表示出现了错误。

  pthread_mutex_unlock：与pthread_mutex_lock成对存在。释放互斥锁。

程序首先定义了一个宏PTHREAD_MUTEX_INITIALIZER来静态初始化互斥锁。先创建tidA线程后运行doit函数，利用互斥锁锁定资源，进行计数，执行完毕后解锁。后创建tidB，与tidA交替执行。由于定义的NLOOP值为5000，所以程序最后的输出值为10000.程序的最后还需要分别回收tidA和tidB的资源。

关于count.c

这个代码用于与countwithmutex.c进行对比，差别在于本代码doit函数的for循环中没有引入互斥锁，只进行了单纯的计数，创建两个线程共享同一变量都实现加一操作。运行结果如下。

关于condvar.c

这个代码演示的是生产者生产和消费者消费交替进行的过程。是线程间同步的一种情况。
主函数中用srand(time(NULL))设置当前的时间值为种子，在后面的producer和consumer函数中调用rand()函数产生随机数。
将主函数做如下修改后，发现生产和消费的速率比原来慢了一倍左右，因此也可以知道，通过增加或减少创建的线程数量能够影响程序输出的速率。这也侧面反应出了互斥锁在程序中所起的作用。

关于cp_t.c

mmap函数

  `void* mmap(void* start,size_t length,int prot,int flags,int fd,off_t offset);`

将一个文件或者其他对象映射进内存。文件被映射到多个页上，如果文件的大小不是所有页的大小之和，最后一个页不被使用的空间将会清零。mmap在用户空间映射调用系统中作用很大。

成功执行时，mmap()返回被映射区的指针，munmap()返回0.失败时，mmap()返回MAP_FAILED,munmap返回-1.

lseek函数

  off_t lseek(int fd,off_t offset,int whence);

fd表示要操作的文件描述符，offset是相对于whence(基准)的偏移量，whence可以是SEEK_SET（文件指针开始），SEEK_CUR（文件指针当前位置），SEEK_END(文件指针尾)

lseek主要作用是移动文件读写指针，返回文件读写指针距文件开头的字节大小，若出错则返回-1.
运行如下

关于createthread.c

程序主要演示了创建线程函数pthread_create()函数的使用，用来打印进程和线程的ID
主函数中先利用pthread_create()函数创建一个线程，接着调用printids函数（打印标识符的函数）打印主线程号，最后线程函数thr_fn中打印出新建的线程号。

关于sieve.c

首次编译时出现错误
按照错误提示发现是因为没有连接数学库引发的错误，所以在编译时加上-lm，可以成功编译，运行结果提示了段错误，还不知道怎么解决这个问题。

关于semphore.c

sem_init函数

  sem_init(sem_t *sem, int pshared, umsigned int value);

函数初始化一个定位在sem的匿名信号量；pshared参数为0指明信号量是由进程内线程共享，若为非0值则信号量在进程之间共享；value参数指定信号量的初始值。

sem_init（）成功时返回0；错误时返回-1，并把errno设置为合适的值。
sem_destroy()函数用于销毁由sem指向的匿名信号量。只有通过sem_init（）初始化的信号量才应该使用该函数销毁。函数成功时返回0，错误时返回-1，并把errno设置为合适的值。
这个函数和之前的condvar.c一样都是展示生产者和消费者交替工作的过程。区别是本程序实现生产或消费的过程是利用sem_wait()和sem_post()，它们的作用分别是从信号量的值减去一个“1”和从信号量的值加上一个“1”

关于share.c

代码运行结果如下

关于threadexit.c

运行如下

关于hello_multi.c

程序中的print_msg（）函数中：在printf后的fflush(stdout);说明要立刻将要输出的内容输出，每输出一次停1秒，并循环5次。
若想要使程序输出像预期的打印出5个完整的helloworld,只需要将线程t1和t2的位置互换，修改代码如下
修改后代码运行如下

关于hello_multi1.c

运行结果只输出hello99

关于hello_single.c

根据代码，先单独执行print_msg("hello");——输出5个hello，后输出5个带换行的world

关于incprint.c

由于定义中NUM=5，所以输出的count为1——5

关于twordcount.c

twordcount1.c运行如下
twordcount2.c运行如下
twordcount3.c运行如下
twordcount4.c运行如下

代码托管情况

代码托管链接

代码行数统计

其他（感悟、思考等，可选）

本周的学习我先运行了老师给的代码，之后才进行了课本内容的学习。在运行代码的过程中，由于程序中调用的一些函数都是比较生疏的，需要一个一个的查每个参数的含义和函数的返回值。这个过程耗费了大量的时间。虽然方法比较笨，但是收获很大。
在自己第一次读代码的时候，只能根据程序运行的结果，大致的猜测出每一句代码的含义，以此推测出其他的代码应该会有怎样的运行结果。后来在看课本的时候总是会有恍然大悟的感觉，在运行代码后再学习课本内容，更能系统地理解知识点。比如看到pthread_create函数时，一开始我只知道这个函数会创建一个名为它的第一个参数的线程，而后我就应该跳到名为它的第三个参数的函数中继续执行代码；在看到课本后，我才知道这个过程叫做“主线程创建一个对等线程”，第一个参数为对等线程的名称，而pthread_join是在等待对等线程的终止。

学习进度条

	代码行数（新增/累积）	博客量（新增/累积）	学习时间（新增/累积）	重要成长
目标	5000行	30篇	400小时
第零周	0/0	1/1	5/5	使用虚拟机安装linux系统，安装ubuntu
第一周	100/100	1/2	20/25	掌握核心的linux命令，了解了linux操作系统
第二周	76/176	1/3	30/55	学会了虚拟机上的C编程
第三周	214/390	1/4	20/75	初步学习计算机中各种数的表示和运算
第五周	138/528	1/5	25/100	通过学习汇编，了解逆向的思想应用
第六周	150/678	1/6	30/130	安装了Y86处理器，了解了ISA抽象
第七周	100/778	1/7	20/150	理解了局部性原理和缓存思想在存储层次结构中的应用
第八周	0/778	2/9	20/170	对前七周的内容进行了查缺补漏
第九周	77/855	2/11	25/195	学习了Unix I/O并且了解了Unix I/O的使用情况
第十周	514/1369	2/13	20/215	实践了常用指令的代码，加深了对指令的理解
第十一周	1854/3223	2/15	30/245	理解进程和并发，了解异常及其种类
第十二周	0/3223	2/17	25/270	复习了前几周的知识，深入理解老师给的代码
第十三周	1005/4228	1/18	35/305	掌握了并发的方式，线程控制及相关系统调用

参考资料

刷新页面返回顶部

20145214

公告