(基础篇 走进javaNIO)第一章-java的i/o演进之路

 

Java 是由 SUN公司在 1995 年首先发布 的编程语 言和计算平 台。这基础技术 支持最新 的程序 ,包括 实用程序 、游 戏和业 务应用程序 。J ava 在世界各地 的 8.5  亿 多 台个 人计算机和数 十亿 套设备上运行着 ,其l扫 包括移动设备和 电视设备 。

Java 之所 以能够得到如此广泛 的应用 ,除 了摆脱硬件平 台的依赖具有 “ 一次编写 、到 处运行 ” 的平 台无关性特性之外 ,另一个 重要原因是 :其丰富而强大的类库 以及众 多第三 方开源类库使得基于 Java 语 言的开发更加简单和便捷 。

伺是 ,对 于一些经验丰富的程序员来说 ,Java 的一些类库在早 期设计 巾功 能并不完善 或者在在一些缺 陷,其中最令人恼火 的就是基于同步 1/0 的 Socket 通信类库 ,直到 2002 年 2 月 13 日 J OK I .4 Merlin 的发布 ,J ava 才第一次支持非阻塞 I/0,这 个类库的提供 为 JDK 的通信模型带 米了翻天覆地 的变化 。

在开始学 java之前 ,我们首先对 UNIX 系统常用的 I/0 模型进行介 绍 ,然后对 Java 的 1/0 历史演进行简单说明 。通过本章节的 学习,希望读者对同步和异步 l/0  以及 Java  的 l/0  类库发展有个直观的了解 ,方便后续章节 的学 习。如果你己经熟练 NIO  编程或者 从事过 UN IX  网络编程? 希望直撞学习 Java 的 NIO 和 Netty,那就可以直接跳到第 2 章进行学习 。

本章主要 内容包括 :

I/0   基础入 门

Java 的 1/0 演进


 

 

1.1   1/0基础入门

 

Javal1.4 之 前的早期版本 ,Java 对IO的支持并不完善 ,开发人员在开发高性能 l/0程序的时候,会面临一些巨大的挑战和困难 ,主要问题如下

没有数据缓冲区,i/0 性 能存在 问题;

没有C 或者 C++中的 channel概念,只有输入和输出流 ;

同步阻塞式 i/0 通信( BIO通常会导致通信线程被长时间阻塞 ;

支持的字符集有 限,硬件可移植性不好;

在 Java 支持异步 i/0 之前的很长一段 时间里 ,高性 能服务端开发领域一直被 C++和 C长 期占据,J ava 的同步阻塞 i/0 被大家所记病 。

 

1.1.1     Linux 网络 1/ 0 模型简 介

Linux 的内核将所有外部设备都看做一个文件来操作 ,对一个文件 的读 写操作会调用 内核提供的系统命令 ,返回一个 file descriptor ( fd,文件描述符 〉 。而对 一个 socket  的读 写 也会有相应 的描述 符 ,称 为 socketfd ( socket 描述符 ) ,描述 符就是一个数字 ,它指 向内 核中 的一个 结构体 ( 文件路径 ,数 据区等一些属性 〉 。

根据 UN IX   网络编程对 IO模型的分类 ,UNIX 提供了 5 种 1/0 模型 ,分别如 下。

 

( 1 ) 阻塞 I/0 模型 :最常用的 1/0 模型就是阻塞I/0模型,缺省情形下,所有文件操作都是阻塞的。我们以套接宇接 口为例来讲解此模型:在进程空间中调用recvfrom,其系 统调用直到数据’包到达且被复制剑应用进程的缓 冲 区中或者发 生错误时才返回 ,在此期 间 一直会等待 ,进程在从调用 recvfrom  开始到它返回的整段时间内都是被 阻塞的 ,因此被称 为 阻裴 1/0 模型 ,如图 1 - 1  所示 。

( 2 ) 非阻塞 1/0 模型 :recvfrom    从应用层到 内核的时 候 ,如果该缓冲区没有 数据的话 , 就直接返回一个 EWOULDBLOCK 错误 ,一 般都对非阻塞 1/0 模型进行轮询检 查这个状态 , 看 内核是不是有数据到 来。如 图 1-2 所 示 。

( 3 ) I/0 复用模型 :Lin ux 提供 select/poll ,进程通过 将 一个或多个 fd传给 select 或 poll 系统调用 ,阻塞在 select 操作上 ,这样 select/poll 可 以帮我们侦测多个 fd 是否处 于就 绪状态 。select/pol l 是顺序扫描 fd是否就绪 ,而且支持 的 fd数量有限 ,因此它的使用受到 了一些制约 。Linux且 还提供了一个 epoll 系统调用 ,epoll 使用基于事件驱动方式代 替顺序 扫描 ,因此性 能更高 。当有 fd就绪时 ,立 即回调函数 rollback 。如 图 1-3 所示 。

( 4 ) 信号驱动 I/0 模型:首先 开启套接 口信号驱动 l/0 功能,并通 过系统调用 sigaction 执行 一个信号处理 函数 〈 此系统调用立 即返回,进程 继续工作 ,它是非阻塞的 〉 。当数据 准备就绪时 ,就 为 该进 程生成一个 SIGIO 信号 ,通过信号回调通知应用程序 调用 recvfrom 来读取数据 , 并通知主循环 函数处理,数据 。如图 1-4 所示 。

 

( 5 ) 异步 1/0:告知 内核 启动某个操作 ,并让 内核在整 个操作完成后 〈 包括将数据从 内核复制到用户 自己的缓冲 区〉 通知我们 。这种模型与信 号驱动模型的主要 区别是 :信号 驱动 1/0  由内核通知我们何时可 以开 始一个 1/0 操作 :异步 1/0 模型白内核通知我们 I/0 操作何 时 已经完成 。如 图 l -5 所示 。

 

如果想要了解 更 多的 UNIX  系统 网络编程知识 ,可以阅 读 《UNIX  网络编程》 ,里面

非常详细 的原理和 API 介绍 。对于 大多数 Java 程序 员来说不需要 了解网络编程 的底层 细节 ,大家只需要有个概念 ,知道对 于操作系统而言,底层 是支持异步 I/0 通信 的 ,只不 过在很长一段时间 Java 并没有提供异步 I/0 通信的类库 ,导致 很多原生的 Java 程序员对 这块 儿 比较 陌生 。当你了解 了网络编程 的基础知识后,理解 Java 的 NIO 类库就会更加 容 易一些。

下一个小结我们重点讲下  1/0  多路复用技术 ,因为 Java NIO 的核心类库 多路 复用器Selector 就是基于 epoll 的多路复用技术实现 。


 

 1.1.2   i/ 0 多路复用技术

 

在 I/0 编程过程 中,当需要 同时处理多个客户端接入请求时,可以 利用多线程或者 I/0 多路复用技术进行处理 。I/0 多路复用技术通过把 多个 1/0 的阻塞复用到同一个 select 的阻 塞上 ,从而使得 系统在单线程的情况下可 以同时处理多个客户端请求 。与传统的 多线程/ 多进程模型比 ,I/0多路复用 的最大优势是系统开销小 ,系统不需要创建新 的额外进程或 者线程 ,也不需要维护这些进 程和线程 的运行 ,降低了系统 的维护工作量,节省了 系统资 源 ,I/0 多路复用的主 要应用场景如下 。

1.服务器需要 同时处理 多个处于监昕状态或者多个连接状态的套接字

2.服务器需要 同时处理多种网络协议 的套接字

 

目前支 持 1/0 多路复用的 系统 调用有 select 、pselect 、poll 、cpoll,在 Linux  网络编程 过程 ,很长 一段时间 都使用 select 做轮询和 网络事件通知 ,然 而 select  的一些固有缺陷 导致 了它的应用受到 了很大的限制,最终 Linux  不得不在新 的内核版本 中寻找 select  的替 代方 案 ,最终选 择 了epoll,epoll 与select 的原理比较类似了克服 select 的缺点,epoll作 似多重大改进现总结如下。

 

1. 支持一个进程打开的 socket描述得 (FD)不受限制 ( 仅受限于操作系统的最大文件句柄数 )。

sel ect最 大的缺陷就是单个进程所打开的 FD是有一定 限制的 ,它由FD_SETSIZE 设 置 ,默认值是 1024 。对 于那些需要支持上万个 TCP 连接 的大型服务器来 说显然太少了 。 可以选择修改这个宏然后重新编译内核 ,不过这会带来网络效率 的下降。我们 也可 以通过 选择 多进程的方案 ( 传统的 Apache 方案 〉 解决这个问题 ,不过虽 然在 Linux  上创建进程 的代价 比较 小 ,但 仍 旧是不可忽视 的,另外 ,进程间 的数据交换 非常麻烦 ,对Java 由 于没有共享 内存 ,需要通 过 Socket 通信或者其他方式进行数据同 步 ,这带 来 了额外 的性 能 损耗 ,增加 了程序复杂度 ,所 以也不是一种完美 的解决方案 。值得庆幸 的是 ,epo ll 并没有 这个 限制,它所 支持的 FD 上 限是操作系统的最 大文件句柄数 ,这 个数字远远大于 1024 。例如 ,在 1GB 内存 的机器上 人约是 10 万个句柄左右 ,具体 的值 可 以通过 cat /proc/sys/fs/file­ max 察看 ,通 常情况下这 个值跟系统 的 内存关系比较 大。

 

2.   1/0 烈率不会随着 FD 数目的增加而线性下降。

传 统的 select/poll  另一个致命弱 点就是 当你拥有一个很大的 socket 集合 ,由于 网络延 时或者链路空闲,任 一时刻只有少部分的 socket 是 “ 活跃 ” 的,但是 select/poll 每次调用 都会线性扫描全部的集合 ,导致效率呈现线性 下降。epoll  不存在这个 问题 ,它只会 对 “ 活 跃 ” 的 socket 迸行操作 这是因 为 在 内核实现 中,i  epoll  是根据每个 “ 上面 的 callback  函数实 现 的,那么 ,只有 “ 活跃 ” 的 socket 才会主动的去调用 callback  函数 ,其他 id le 状态 socket 则不会 。在这 点上 ,epoll  实现 了一个伪 AIO 。针对 epoll  和 select  性 能对 比的 benchmark 测试表 明:如 果所有 的 socket   都 处 于活跃态 例如一个 高速 LAN   环境 ,epoll 并不 比 select/po11 效率高太多 ;相 反 ,如果过 多使用 epoll_ctl ,效率相比还 有稍微 的下降。但 是一 旦使用 idle connections 模拟 WAN  环境 ,epoll 的效率就远在 select/poll 之上了 。

 

3 .   使用 mmap 加速内极与用户空间的消息传递 。

 

无论 是 select ,     poll还是 epoll 都需要内核 把 FD 消息通知给用户空间 ,如何避 免不必耍 的内存复制就显得非常重要 ,epoll 是通过内核和 用户空间 mmap 同一块 内存 实现 。

 

4.   epoll 的 API 更加简单。

包括创建一个 epoll  描述符 、添加监听事件 、阻塞等待所监听的事件发生, 关闭 epoll描述符等 。

 

到这里 ,1/0 的基础知识已经介绍完毕 ,从 1.2 章节开始介绍 Java 的 I/0 演进 历史

从 BIO 到 NIO 是 Java 通信类库迈 出的一小步,但却对 Java 在高性 能通信领域的发展起 到 了关键性 的推动作用 。随着基于 NIO 的各类 NIO 框架的发展 ,以及基于 NIO 的 Web 服务 器的发展 ,Java 在很多领域取代了 C 和 C++,成 为企业服务端应用开发 的首选语言。

 


 

1.2    Java 的 1/0 演进

 在 JDK  1.4 推 出 Java  NIO 之前 ,基于 Java  的所有 Socket 通信都采用了同步阻塞模式 ( BIO ) ,这种一请求一应答的通信模型简化 了上层的应用开发 ,但 是在性能和可靠性方面 却存在着 巨大的瓶颈 。因此 ,在很长一段 时间里 ,大型的应 用服务器都采用 C  或者 C++ 语言,因为 它们 可 以直接使用操作系统提供 的异步 J/0 或者 AIO 能力 。当并发访 问量 增大 、响应时间延迟增大之 后 ,采用 Java BIO 开发的服务端软件只有通过硬 件的不 断扩容 来满足 高并发和低时延 ,它极大地 增加 了企业 的成本 ,并且 随着集群规模 的不断膨胀 ,系 统的可维护性也面临巨大的挑战 ,只能通过采购性 能更高的硬件服务器来解决问 题 ,这会 导致恶性循环 。

正是由于Java传统BIO的拙劣表现才使得 Java 支持非阻塞 I/0 的呼声日渐高涨,最终,JDK1.4 版本提供了新 的 NIO 类库 ,Java 终于也可 以支持非阻塞 l/0 了。

 

Java 的 1/0 发展简史

从 JDK1.0 到 JDK 1.3 , Java 的 I/0 类库都非常原始 ,很多 UNIX 网络编程中的概念或 者接口在 I/0 类库中 都没有体现 ,例 如Pipe ,Channel 、Buffer 和 Selector 等 。2002 年发布 JDK l1.4 时,N IO 以 JSR-51 的身份正式随 JDK 发布 。它新增了个 java.nio 包 ,提供了很 多 进行异步 1/0 开发的 API 和类库 ,主要的类和 接口如下。

1.进行异 步 1/0 操作的缓冲 区 ByteBuffer 等 ;

2.进行异步 1/0 操作 的管道 Pipe ;

3.进行各种 1/0 操作 ( 异步或者 同步 ) 的 Channel ,包括 ServerSocketChannel和SocketChannel :

4.多种字符集 的编码能力和解 码 能力;

5.实现非阻塞 I/0 操作的多 路复用器selector ;

6.基于流行 的 Perl  实现 的正则表达式类库 ;

7.文件通道 FileChannel 。

 

新的N IO 类库的提 供 ,极大地促进 了基于 Java 的异步非阻塞编程的发展和应用,但是 ,它依然有不完善 的地方 ,特别是 对文件系统的 处理能力仍显不足 ,主要 问题如下。

1.没有统一的文件属性 〈 例如读 写权 限);

 2.API 能力 比较弱 ,例 如目录的级联创建和递归遍历 ,往往需要 自己实现 ;

3.底层存储系统的 一些高级 API 无法使用:

4. 所有的文件操作都 是 同步阻塞调用 ,不支持 异步文件读写操作 。

 

2011年 7 月 28 日,JDK 1.7 正式发布 。它的一个比较 大的亮点就是将原来 的 NIO 类 库进行了升 级 9  被称为 NI02.0。NI02.0  由 JSR-203 演进而来 ,它主要提供 了如下三个方 面 的改进 。

1.提供能 够批量获取文件属性 的 API ,这些 API 具有平 台无关性 ,不与特性 的文件 系统相耦合 ,另外它还提供 了标准文件系统的 SPI ,供各 个服务提供商扩展实现

2.提供 AIO 功能 ,支持基于文件的异步 I/0 操作和针对网络套接字的异步操作 

3.完成 J SR-5 1  定义的通道功 能 ,包括对配 置和多播数据报的支持等


 

1.3     总结

 通过本 章的学习,我们 了解了unix网络编程 的 5 种 1/0 模型 ,学习了I/0 多路复用 技术的 基础知识 。通过对 Java i/0 演进历史的总结和介绍 ,相信大 家对 Java. 的I/0 演进有 了一个更加直观 的认识 。后面的第 2 章节会对阻 塞 1/0 和非阻塞 1/0 进行 详细讲解 ,同时 给 出代码示例 。相信学完第 2 章之后 ,大家就能够对传统的阻塞 IJO  的弊端和非阻 塞I/0 的优点有更加深刻的体会 。

 

posted @ 2015-10-19 17:40  crazyYong  阅读(601)  评论(0编辑  收藏  举报