浅析I/O模型-select、poll、epoll

I/O流

概念

（1）c++中将数据的输入输出称之为流(stream)，在c++中，流被定义为类，成为流类(stream class)，其定义的对象为流对象。

（2）文件，套接字(socket)，管道(pipe)等能够进行I/O操作的对象，可以被看做为流
工作机制

（1）大多数文件系统的默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，读取数据时，都会将数据先拷贝到操作系统内核的缓冲区中，然后将操作系统内核缓冲区的数据拷贝到应用程序的地址空间，写的过程则相反。

（2）缓存I/O使用操作系统内核缓冲区，在一定程度上分离了应用程序空间和实际的物理设备，通过将数据写入缓冲区后，再一次性处理，减少了读盘的次数，从而提高了性能

I/O模型

同步与异步：关注的是消息通信机制

同步(synchronous)：调用者会一直“等待”被调用者返回消息，才能继续执行，在此期间，调用者不能做其它事

异步(asynchronous)：被调用者通过状态、通知或回调机制主动通知调用者被调用者的运行状态，在此期间，调用者可以边“等待”，边做其它事
阻塞和非阻塞：关注调用者的状态

阻塞(blocking)：调用者一直“等待”所处的状态

非阻塞(blocking)：调用者能够边“等待”，边做其它事的状态
同步I/O

（1）阻塞式I/O：程序发出I/O请求，如果内核缓冲区为空，此时进行读操作，那么该程序就会阻塞

（2）非阻塞式I/O：程序发出I/O请求，如果内核缓冲区为空，此时进行读操作，此时就会立刻返回一个错误

（3）I/O复用

a. 这是一种机制，程序注册一组文件描述符给操作系统，监视多个描述符，一旦某个描述符就绪（一般是读就绪或者写就绪），能够通知程序进行相应的读写操作。表示“我要监视这些fd是否有I/O事件发生，有了就告诉程序处理”。

b. 当多个I/O流共用一个等待机制时，该模型会阻塞进程，但是进程时阻塞在这种机制的系统调用上，不是阻塞在真正的I/O操作上

c. I/O多路复用需要和非阻塞I/O一起使用，非阻塞I/O和I/O多路复用式相对独立的。非阻塞I/O仅仅指流对象立刻返回，不会被阻塞；而I/O多路复用只是操作系统提供的一种便利的通知机制。

（4）信号驱动式I/O

a. 用户进程可以通过系统调用注册一个信号处理程序，然后主程序可以继续向下执行，当有I/O操作准备就绪时，由内核通知触发一个SIGIO信号处理程序执行，然后将用户进程所需要的数据从内核空间拷贝到用户空间

b. 此模型的优势在于等待数据报到达期间进程不被阻塞。用户主程序可以继续执行，只要等待来自信号处理函数的通知。
异步I/O

a. 程序进程向内核发送I/O调用后，不用等待内核响应，可以继续接受其他请求，内核调用的I/O如果不能立即返回，内核会继续处理其他事物，直到I/O完成后将结果通知给内核

b. 信号驱动式IO是由内核通知我们何时启动一个IO操作，而异步IO是由内核通知我们IO操作何时完成。

I/O复用模型

select

select原型

#include <sys/select.h>
//第一个参数为监听的最大文件描述符加1（文件描述符从0计数）
//第二个参数检测文件描述符集合中的文件描述符是否可读
//第三个参数检测文件描述符集合中的文件描述符是否可写
//第四个参数检测文件描述符集合中的文件描述符是否有异常
//第五格参数为设置超时时间
int select(int nfds, fd_set *readfds, fd_set *writefds,fd_set *exceptfds, struct timeval *timeout);

select的大致工作流程：

（1）采用数组组织文件描述符

（2）通过遍历数组的方式，监视文件描述符的状态(可读，可写，异常)

（3）如果没有可读/可写的文件描述符，进程会阻塞等待一段事件，超时就返回

（4）当有一个可读/可写的文件描述符存在时，进程会从阻塞状态醒来

（5）进行无差别轮询，找出能够操作的I/O流，若处理后，会移除对应的文件描述符

select的缺点：

（1）每次调用select，都需要把文件描述符集合从用户空间贝到内核空间，这个开销在I/O流很多时会很大

（2）同时每次调用select都需要在内核遍历传递进来的所文件描述符数组，这个开销在I/O流很多时也很大

（3）select支持的文件描述符数量太小了，默认是1024

typedef long int __fd_mask;


/* It's easier to assume 8-bit bytes than to get CHAR_BIT. */
#define __NFDBITS (8 * (int) sizeof (__fd_mask))
#define __FDELT(d) ((d) / __NFDBITS)
#define __FDMASK(d) ((__fd_mask) 1 << ((d) % __NFDBITS))

/* fd_set for select and pselect. */
typedef struct
  {
    /* XPG4.2 requires this member name. Otherwise avoid the name
       from the global namespace. */
#ifdef __USE_XOPEN
    __fd_mask fds_bits[__FD_SETSIZE / __NFDBITS];
# define __FDS_BITS(set) ((set)->fds_bits)
#else
    __fd_mask __fds_bits[__FD_SETSIZE / __NFDBITS];
# define __FDS_BITS(set) ((set)->__fds_bits)
#endif
  } fd_set;

/* Maximum number of file descriptors in `fd_set'. */
#define FD_SETSIZE __FD_SETSIZE   //__FD_SETSIZE等于1024

/* Access macros for `fd_set'.  */
#define FD_SET(fd, fdsetp)      __FD_SET (fd, fdsetp)
#define FD_CLR(fd, fdsetp)      __FD_CLR (fd, fdsetp)
#define FD_ISSET(fd, fdsetp)    __FD_ISSET (fd, fdsetp)
#define FD_ZERO(fdsetp)         __FD_ZERO (fdsetp)

简化后

   #define __FD_SETSIZE    1024
   typedef __kernel_fd_set     fd_set;
   typedef struct {
       unsigned long fds_bits[__FD_SETSIZE / (8 * sizeof(long))];
   } __kernel_fd_set;

fd_set结构体里面是一个无符号长整型的数组，总共有1024/(8 * 4) = 32个元素，每个unsigned long元素为32位。而描述符集用数组元素的位域表示，即：数组元素的每一位对应一个文件描述符，所以最多可监控32*32 = 1024个文件的变化

poll

poll原型

#include <poll.h>

//第一个参数是指向pollfd结构体数组
//第二个参数是监听的文件描述符的数量
//第三个参数设置超时时间
int poll(struct pollfd *fds, nfds_t nfds, int timeout);

struct pollfd 
{
        int   fd;         /* 文件描述符 */
        short events;     /* 用户设置条件 */
        short revents;    /* 返回该描述符的状态 */
};

（1）和select一样通过轮询文件描述符集合监听文件描述符状态

（2）通过pollfd结构体存放文件描述符解决了fd_set对文件描述符数量受限

（3）select和poll都是水平触发：找到可操作的I/O流并通知进程，但进程本次没有处理，文件描述符没有被移除，下次轮询时依旧会通知

epoll

工作原理：

（1）红黑树和就绪链表，红黑树用于管理所有的文件描述符，就绪链表用于保存有事件发生的文件描述符。

（2）接收到I/O请求，会在红黑树查找是否存在，不存在就添加到红黑树中，存在则将对应的文件描述符放入就绪链表中

（3）如果就绪链表为空，进程则阻塞否则遍历就绪链表，并通知应用进程处理文件描述符对应的I/O

工作模式：

（1）LT模式(水平触发)：检测到可处理的文件描述符时，通知应用程序，应用程序可以不立即处理该事件。后续会再次通知

（2）ET模式(边缘触发)：检测到可处理的文件描述符时，通知应用程序，应用程序必须立即处理该事件。如果本次不处理，则后续不再通知