Linux网络文件系统的实现与调试

NFS协议

NFS (网络文件系统)不是传统意义上的文件系统,而是访问远程文件系统的网络协议。整个NFS服务的TCP/IP协议栈如下图所示,NFS是应用层协议,表示层是XDR,会话层是RPC,传输层同时支持UDP和TCP,网络层是IP协议。NFS/XDR/RPC等协议规范细节在《TCP/IP详解 卷1:协议》第29章有详细的描述,这里不再赘述。

经过多年的演进,NFS协议有多个版本,每个版本都有相应的RFC规范,如RFC1813。每个NFS的版本对比如下所示。

NFS通过NFS过程来对外提供服务。如下是RFC1813中定义的一组NFS过程。

  • null() 返回():不执行任何操作,有两个作用:相当于到服务器的ping,以及检测客户端和服务器间的RTT(Round Trip Time)。
  • lookup(dirfh, name) 返回(fh, attr):返回目录中一个指定文件的fhandle和属性信息。
  • create(dirfh, name, attr) 返回(newfh, attr):创建一个新文件并且返回它的fhandle和属性信息。
  • remove(dirfh, name) 返回(status):从指定目录中删除文件。
  • getattr(fh) 返回(attr):返回文件属性信息。这个调用类似于一个stat调用。
  • setattr(fh, attr) 返回(attr):设置一个文件的mode,uid,gid,size,access time,modify time属性。将文件大小设置为0相当于对文件调用truncate。
  • read(fh, offset, count) 返回(attr, data):从文件的offset偏移处开始,返回最多count个字节的数据。read操作也返回文件的属性信息。
  • write(fh, fh, offset, count, data) 返回(attr):向文件offset偏移处开始,写入count字节的数据,返回写操作完成后的文件属性信息。
  • rename(dirfh, name, tofh, toname) 返回(status):将dirfh目录中名为name的文件,重命名为tofh目录中名为toname的文件。
  • link(dirfh, name, tofh, toname) 返回(status):在tofh目录中创建名为toname的链接,指向dirfh目录中的name文件。
  • symlink(dirfh, name, string) 返回(status):在dirfh目录中创建一个名为name的符号链接。服务器不解释string的具体内容,而只是简单将其保存起来并且与符号链接文件相关联。
  • mkdir(dirfh, name, attr) 返回(fh, newattr):在dirfh目录中创建名为name的目录,并返回其fhandle和属性信息。
  • rmdir(dirfh, name) 返回(status):从dirfh中删除名为name的空目录。
  • readdir(dirfh, cookie, count) 返回(entries):从dirfh目录返回组多count字节的目录项信息。每个目录项信息包含了一个文件名,文件id,和一个由服务器解释的指向下一个目录项的指针cookie。cookie的作用是在后续readdir操作中从一个指定的位置返回目录项信息。cookie为0的readdir调用从目录的第一个目录项开始返回。
  • statfs(fh) 返回(fsstats):返回块大小、空闲块数等文件系统的信息。

NFS特性对比

NFSv3特性对比

  • V2支持的最大的文件大小为2GB(32bit),V3则更大(64bit)。
  • V2将每个READ和WRITE 过程可以读写的数据限制为8192个字节,V3则取消了限制。RPC的读写字节数只受TCP/IP限制。
  • V3引入新的NFS过程COMMIT,支持异步写,提高写性能。
  • V3引入新的NFS过程ACCESS,支持服务侧ACL访问权限检查。
  • V3引入新的NFS过程READDIRPLUS,其返回file handle和属性,这样可以减少LOOKUP的调用次数。
  • V3对RPC命令进行优化,每个影响文件属性的RPC都返回新的属性,这样可以减少GETATTR的调用次数。

NFSv4特性对比

  • V3是无状态的,V4开始支持状态。改善文件系统的异常恢复能力。
  • V4支持file delegation(客户端可以工作在本地副本,直到其他客户端请求同一个文件),改善文件系统一致性问题。
  • V4引入新的NFS过程COMPOUND,支持一个COMPOUND请求包含多个NFS过程。提高请求的表达能力,减少RPC请求的调用次数。
  • V4强制支持RPCSEC/GSS,改善文件系统的安全问题。
  • V4支持加密ACL,改善文件访问权限管理。
  • V4服务端为客户端支持统一的伪文件系统视图。服务端所有export目录都必须在一个伪文件系统root export目录下。
  • V3客户端的IP是自动适配的,V4客户端支持mount clientaddr参数,可以指定客户端特定的IP地址。

NFSv4.1特性对比

  • 客户端可以并行访问存储设备。
  • 支持多个服务端。
  • 支持文件系统的元数据和数据分离。
  • delegation功能支持目录。
  • 支持会话机制(session),改善断链、崩溃等异常恢复能力。

Linux NFS实现与实例

LInux NFS架构是典型的CS架构,其结构如下图所示。其中服务端应用程序主要由如下几部分组成:

  • portmap:端口映射器,主要功能是进行RPC程序的端口映射工作。当客户端尝试连接并使用RPC服务器提供的服务(如NFS服务)时,portmap会将所管理的与服务对应的端口提供给客户端,从而使客户可以通过该端口向服务器请求服务。
  • rpc.mountd:NFS挂载守护进程,主要功能是实现NFS MOUNT协议,负责挂载/卸载NFS文件系统和权限管理。它会读取NFS的配置文件/etc/exports来对比客户端访问权限。挂载成功后,客户获得服务器文件系统的一个文件句柄(fh)。
  • rpc.nfsd:NFS服务端守护进程,是NFS服务的用户态部分,负责创建nfsd内核进程。需要提出的是,NFS服务的大部分功能都由nfsd内核进程处理。

 可以看出NFS服务的大部分功能都是由内核模块实现的,除了图中所示的内核模块,内核还提供了几个内核守护进程:

  • nfsd:主要作用是处理NFS的RPC请求。
  • nfsiod:主要作用是为NFS客户端提供高效的缓冲机制,如预读、延时写等,从而改善NFS文件系统的性能。
  • rpciod:主要作用是作为RPC(远过程调用服务)的守护进程,用于从客户端启动I/O服务。

下图是一个NFS协议消息流图实例(点击见大图),包含了一些典型的网络文件系统操作场景,如:

  • 服务注册过程
  • NFS挂载:mount 168.0.155.1:/datadisk0 /tmp
  • 改变工作目录:cd /tmp
  • 查看目录下文件:ls
  • 读文件:more tail bootcfg.ini

Linux NFS调试

NFS应用程序调试

打开应用程序调试功能:

  • /usr/sbin/portmap -d
  • /usr/sbin/rpc.mountd -d all
  • /usr/sbin/rpc.nfsd -d -s

查看NFS配置与记录日志:

  • cat /etc/exports
  • cat /var/lib/nfs/rmtab
  • cat /var/lib/nfs/etab
  • cat /var/lib/nfs/xtab
  • cat /var/lib/nfs/state
  • tail /var/log/messages

NFS内核模块调试

打开NFS模块调试功能:

  • sysctl -w sunrpc.nfs_debug=2147483647
  • sysctl -w sunrpc.nfsd_debug=2147483647

查看NFS相关统计和日志:

  • cat /proc/slabinfo | grep nfs
  • /proc/fs/nfsfs/
  • nfsstat
  • dmesg

TCP/IP模块调试

打开RPC模块调试功能:

  • sysctl -w sunrpc.rpc_debug=2147483647

查看RPC相关统计和日志:

  • cat /var/run/portmap_mapping
  • cat /proc/net/rpc/nfs
  • cat /proc/net/rpc/nfsd

查看TCP/IP相关统计和配置:

  • ping // 查看网络情况
  • netstat -tpwn | grep 2049 // 查看NFS TCP链接
  • cat /proc/sys/net/ipv4/... // 查看网络配置,如tcp_retries2等
  • cat /proc/net/rpc/nfs
  • cat /proc/net/rpc/nfsd // deciles等字段
  • cat /proc/net/snmp // IP: ReasmFails等字段
  • sysctl -a | grep net // 查看所有网络配置参数,如/proc/sys/net/ipv4/tcp_retries2控制tcp断链尝试次数

网络抓包:

  • tcpdump -s 9000 -w /tmp/dump.out port 2049

其他

nfs-utils移植

./configure \
CC=XX-gcc \
--build=$(./config.guess) \
--host=mips64-unknown-linux-gnu \
LDFLAGS="-L/usr/local/lib" \
CPPFLAGS="-I/usr/local/include" \
--disable-tirpc --disable-gss --disable-uuid --without-tcp-wrappers --with-gnu-ld

make

make install

文件系统导出条件

由NFS导出的文件系统由配置文件/etc/exports配置,可以导出的文件系统需要满足如下2个条件:

  • 文件系统必须有一个设备号(需要有FS_REQUIRES_DEV,即存储设备)或FSID号(需要有NFSEXP_FSID 或 ->uuid)。
  • 文件系统必须支持s_export_op接口。而支持s_export_op接口的文件系统都是存储设备文件系统,如ext3/4、ubifs等。其他文件系统如rootfs、ramfs、sysfs等是不支持的。

 

posted @ 2018-08-30 16:54  wahaha02  阅读(1662)  评论(0编辑  收藏  举报