linux命令-- lsof命令 一切皆文件
lsof(list open files)是一个列出当前系统打开文件的工具,它可以列出某个进程打开的所有文件信息。打开的文件可能是普通的文件,目录,NFS文件,块文件,字符文件,共享库,常规管道,明明管道,符号链接,Socket流,网络Socket,UNIX域Socket,以及其它更多。
在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息,因此通过lsof工具能够查看这个列表对系统监测以及排错将是很有帮助的。
1.命令格式:
lsof [参数][文件]
2.命令功能:
用于查看你进程开打的文件,打开文件的进程,进程打开的端口(TCP、UDP)。找回/恢复删除的文件。是十分方便的系统监视工具,因为 lsof 需要访问核心内存和各种文件,所以需要root用户执行。
lsof打开的文件可以是:
1.普通文件
2.目录
3.网络文件系统的文件
4.字符或设备文件
5.(函数)共享库
6.管道,命名管道
7.符号链接
8.网络文件(例如:NFS file、网络socket,unix域名socket)
9.还有其它类型的文件,等等
3.命令参数:
-a 列出打开文件存在的进程
-c<进程名> 列出指定进程所打开的文件
-g 列出GID号进程详情
-d<文件号> 列出占用该文件号的进程
+d<目录> 列出目录下被打开的文件
+D<目录> 递归列出目录下被打开的文件
-n<目录> 列出使用NFS的文件
-i<条件> 列出符合条件的进程。(4、6、协议、:端口、 @ip )
-p<进程号> 列出指定进程号所打开的文件
-u 列出UID号进程详情
-h 显示帮助信息
-v 显示版本信息
4.使用实例:
实例1:无任何参数,列出所有进程打开的所有文件。
命令:lsof
输出:
[root@localhost ~]# lsof
init 1 root cwd DIR 8,2 4096 2 /
init 1 root rtd DIR 8,2 4096 2 /
init 1 root txt REG 8,2 43496 6121706 /sbin/init
init 1 root mem REG 8,2 143600 7823908 /lib64/ld-2.5.so
init 1 root mem REG 8,2 1722304 7823915 /lib64/libc-2.5.so
init 1 root mem REG 8,2 23360 7823919 /lib64/libdl-2.5.so
init 1 root mem REG 8,2 95464 7824116 /lib64/libselinux.so.1
init 1 root mem REG 8,2 247496 7823947 /lib64/libsepol.so.1
init 1 root 10u FIFO 0,17 1233 /dev/initctl
migration 2 root cwd DIR 8,2 4096 2 /
migration 2 root rtd DIR 8,2 4096 2 /
migration 2 root txt unknown /proc/2/exe
ksoftirqd 3 root cwd DIR 8,2 4096 2 /
ksoftirqd 3 root rtd DIR 8,2 4096 2 /
ksoftirqd 3 root txt unknown /proc/3/exe
migration 4 root cwd DIR 8,2 4096 2 /
migration 4 root rtd DIR 8,2 4096 2 /
migration 4 root txt unknown /proc/4/exe
ksoftirqd 5 root cwd DIR 8,2 4096 2 /
ksoftirqd 5 root rtd DIR 8,2 4096 2 /
ksoftirqd 5 root txt unknown /proc/5/exe
events/0 6 root cwd DIR 8,2 4096 2 /
events/0 6 root rtd DIR 8,2 4096 2 /
events/0 6 root txt unknown /proc/6/exe
events/1 7 root cwd DIR 8,2 4096 2 /
说明:
lsof输出各列信息的意义如下:
COMMAND:进程的名称
PID:进程标识符
PPID:父进程标识符(需要指定-R参数)
USER:进程所有者
PGID:进程所属组
FD:文件描述符,应用程序通过文件描述符识别该文件。如cwd、txt等
(1)cwd:表示current work dirctory,即:应用程序的当前工作目录,这是该应用程序启动的目录,除非它本身对这个目录进行更改
(2)txt :该类型的文件是程序代码,如应用程序二进制文件本身或共享库,如上列表中显示的 /sbin/init 程序
(3)lnn:library references (AIX);
(4)er:FD information error (see NAME column);
(5)jld:jail directory (FreeBSD);
(6)ltx:shared library text (code and data);
(7)mxx :hex memory-mapped type number xx.
(8)m86:DOS Merge mapped file;
(9)mem:memory-mapped file;
(10)mmap:memory-mapped device;
(11)pd:parent directory;
(12)rtd:root directory;
(13)tr:kernel trace file (OpenBSD);
(14)v86 VP/ix mapped file;
(15)0:表示标准输出
(16)1:表示标准输入
(17)2:表示标准错误
一般在标准输出、标准错误、标准输入后还跟着文件状态模式:r、w、u等
(1)u:表示该文件被打开并处于读取/写入模式
(2)r:表示该文件被打开并处于只读模式
(3)w:表示该文件被打开并处于
(4)空格:表示该文件的状态模式为unknow,且没有锁定
(5)-:表示该文件的状态模式为unknow,且被锁定
同时在文件状态模式后面,还跟着相关的锁
(1)N:for a Solaris NFS lock of unknown type;
(2)r:for read lock on part of the file;
(3)R:for a read lock on the entire file;
(4)w:for a write lock on part of the file;(文件的部分写锁)
(5)W:for a write lock on the entire file;(整个文件的写锁)
(6)u:for a read and write lock of any length;
(7)U:for a lock of unknown type;
(8)x:for an SCO OpenServer Xenix lock on part of the file;
(9)X:for an SCO OpenServer Xenix lock on the entire file;
(10)space:if there is no lock.
TYPE:文件类型,如DIR、REG等,常见的文件类型
(1)DIR:表示目录
(2)CHR:表示字符类型
(3)BLK:块设备类型
(4)UNIX: UNIX 域套接字
(5)FIFO:先进先出 (FIFO) 队列
(6)IPv4:网际协议 (IP) 套接字
DEVICE:指定磁盘的名称
SIZE:文件的大小
NODE:索引节点(文件在磁盘上的标识)
NAME:打开文件的确切名称
实例2:查看谁正在使用某个文件,也就是说查找某个文件相关的进程
命令:lsof /bin/bash
输出:
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
bash 24159 root txt REG 8,2 801528 5368780 /bin/bash
bash 24909 root txt REG 8,2 801528 5368780 /bin/bash
bash 24941 root txt REG 8,2 801528 5368780 /bin/bash
[root@localhost ~]# lsof /bin/bash /bin/bash2
可以同时查看多个打开的文件。
实例3:递归查看某个目录的文件信息
命令:lsof test/test3
输出:
[root@localhost soft]# lsof test/test3
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
bash 24941 root cwd DIR 8,2 4096 2258872 test/test3
vi 24976 root cwd DIR 8,2 4096 2258872 test/test3
[root@localhost soft]#
说明:
1)使用了+D,对应目录下的所有子目录和文件都会被列出
2)使用了+d,只显示对应目录的文件信息,不显示子目录
依照文件夹/home/oracle来搜寻,但不会打开子目录,用来显示目录下被进程开启的文件
[root@svr-db-test ~]# lsof +d /home/oracle
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
tnslsnr 3520 oracle cwd DIR 253,5 4096 11059201 /home/oracle
实例4:不使用+D选项,遍历查看某个目录的所有文件信息的方法
命令: lsof |grep 'test/test3'
输出:
[root@localhost soft]# lsof |grep 'test/test3'
vi 24976 root cwd DIR 8,2 4096 2258872 /opt/soft/test/test3
vi 24976 root 4u REG 8,2 12288 2258882 /opt/soft/test/test3/.log2013.log.swp
[root@localhost soft]#
说明:
实例5:列出某个用户打开的文件信息
命令:lsof -u username
如:lsof -u oracle
说明: -u 选项,u其实是user的缩写
实例6:列出某个程序进程所打开的文件信息
命令:lsof -c mysql
说明:
-c 选项将会列出所有以mysql这个进程开头的程序的文件,其实你也可以写成 lsof | grep mysql, 但是第一种方法明显比第二种方法要少打几个字符了
实例7:列出多个进程多个打开的文件信息
命令:lsof -c mysql -c apache
实例8:列出某个用户以及某个进程所打开的文件信息
命令:lsof -u test -c mysql
说明:用户与进程可相关,也可以不相关
实例9:列出除了某个用户外的被打开的文件信息
命令:lsof -u ^root
说明:^这个符号在用户名之前,将会把是root用户打开的进程不让显示
实例10:通过某个进程号显示该进行打开的文件
命令:lsof -p 1
实例11:列出多个进程号对应的文件信息
命令:lsof -p 1,2,3
实例12:列出除了某个进程号,其他进程号所打开的文件信息
命令:sof -p ^1
实例13:lsof -i 用以显示符合条件的进程情况
语法: lsof -i[46] [protocol][@hostname|hostaddr][:service|port]
46 --> IPv4 or IPv6
protocol --> TCP or UDP
hostname --> Internet host name
hostaddr --> IPv4位置
service --> /etc/service中的 service name (可以不只一个)
port --> 端口号 (可以不只一个)
例:
[root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 -n
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
oracle 15633 oracle 16u IPv4 4069605 TCP 192.168.2.203:31580->192.168.2.245:ncube-lm (ESTABLISHED)
或
[root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
oracle 15633 oracle 16u IPv4 4069605 TCP 203.aibo.com:31580->192.168.2.245:ncube-lm (ESTABLISHED)
lsof -n 不将IP转换为hostname,缺省是不加上-n参数
实例13-1:列出所有的网络连接
命令:lsof -i
实例13-2:列出所有tcp 网络连接信息
命令:lsof -i tcp
实例13-3:列出所有udp网络连接信息
命令:lsof -i udp
实例13-4:列出谁在使用某个端口
命令:lsof -i :3306
实例13-5:列出谁在使用某个特定的udp端口
命令:lsof -i udp:55
或者:特定的tcp端口
命令:lsof -i tcp:80
实例13-6:列出被进程号为1234的进程所打开的所有IPV4 network files
命令:lsof -i 4 -a -p 1234
实例13-7:列出目前连接主机peida.linux上端口为:20,21,22,25,53,80相关的所有文件信息,且每隔3秒不断的执行lsof指令
命令:lsof -i @peida.linux:20,21,22,25,53,80 -r 3
实例14:列出某个用户的所有活跃的网络端口
命令:lsof -a -u test -i
实例15:列出所有网络文件系统
命令:lsof -N
实例16:域名socket文件
命令:lsof -u
实例17:某个用户组所打开的文件信息
命令:lsof -g 5555
实例18:根据文件描述列出对应的文件信息
命令:lsof -d description(like 2)
例如:lsof -d txt
例如:lsof -d 1
例如:lsof -d 2
说明:
0表示标准输入,1表示标准输出,2表示标准错误,从而可知:所以大多数应用程序所打开的文件的 FD 都是从 3 开始
实例19:根据文件描述范围列出文件信息
命令:lsof -d 2-3
可使用2-10,表示范围,2,10表示某些值
实例20:列出COMMAND列中包含字符串" sshd",且文件描符的类型为txt的文件信息
命令:lsof -c sshd -a -d txt
输出:
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
sshd 2756 root txt REG 8,2 409488 1027867 /usr/sbin/sshd
sshd 24155 root txt REG 8,2 409488 1027867 /usr/sbin/sshd
sshd 24905 root txt REG 8,2 409488 1027867 /usr/sbin/sshd
sshd 24937 root txt REG 8,2 409488 1027867 /usr/sbin/sshd
[root@localhost soft]#
[root@localhost soft]#
实例21: 仅打印进程,方便shell脚本调用
[root@svr-db-test ~]# lsof -tc sshd
3101
4545
实例22:查看进程句柄使用情况,查看几次,用以确定哪个进程在泄漏
# lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head
使用实例使用情况:socket句柄泄漏问题的定位: losf和strace的联合使用!
1. 确定哪个进程在泄漏, 可以用命令 lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head ,这个命令找的是打开句柄数目最多的进程, 多敲入几次, 就知道是那个进程在增长了。 而且累积到一定阶段, 泄漏的进程打开的句柄数会增长。 此步骤可以找到泄漏的进程号xxx
2. 利用ps -aux | grep xxx 可以确认是那个进程,如mysql
3. 反复敲入 ll /proc/xxx/fd确认进程的打开句柄数在增长。
4. 如果这个服务有多个进程, 建议先调节成一个(便于集中分析), 然后用strace -p xxx查看系统调用信息, 然后找到该close但没有close的地方, 很好找的。
5. 从strace信息中找到网络对端的ip和port, 确认对端服务是干啥的, 然后就知道自己这端对应的代码在哪里了, 圈定了范围, review代码就简单了。
如果需要调整单个进程的打开文件句柄数,可用ulimit -HSn 4096
以上命令中,H指定了硬性大小,S指定了软性大小,n表示设定单个进程最大的打开文件句柄数量
实例23:侦测程序句柄泄露的统计方法
造成句柄泄露的主要原因,是进程在调用系统文件之后,没有释放已经打开的文件句柄。在 Linux 系统中,进程与文件之间是通过“打开文件”操作建立连接,文件系统会返回文件句柄来唯一标识进程与文件的连接。每当一个进程执行完毕之后,Linux 系统会将与进程相关的文件句柄自动释放。但是,如果进程一直处于执行状态,文件的句柄只能通过“关闭文件”操作来自我释放。与 Windows 系统的设置不同,Linux 系统对进程可以调用的文件句柄数做了限制,在默认情况下,每个进程可以调用的最大句柄数为 1024 个。超过了这个数值,进程则无法获得新的句柄。因此,句柄的泄露将会对进程的功能失效造成极大的隐患。
通过运行 lsof 工具我们可以得到一个程序打开的所有句柄数量。我们基于统计方法的侦测句柄泄露的基本思想就是:在该程序连续运行的相当长时间内,对它打开的所有句柄数量进行固定周期采样,再利用作图工具对采样数据绘图,通过图形我们基本可以判断该程序是否存在句柄泄露。在程序运行的同时,我们可以运行大量测试用例,尽可能的覆盖程序的所有功能。
下面脚本对某进程采样 3000 个数据,每 10 秒采样一次,依此数据绘制句柄统计趋势图。
#!/bin/sh set -x echo "">total_handler psid=`ps -ef|grep $1|head -1|awk '{print $2}'` count=0 while [ $count -lt 3000 ] do lsof -p $psid|wc -l >> total_handler sleep 10 count=`expr $count + 1` done
图形一般分为几种:
平稳
在程序运行当中,句柄被不断地打开关闭,因此统计图形呈现平稳的锯齿形。在程序运行后期,很多临时打开的句柄被逐渐关闭,总的句柄数量没有随着时间的推移而增加,因此该程序不存在句柄泄露。
峰值稳定

在该程序运行初期,程序打开的句柄数量会随着时间的推移而逐步增加。但是当运行一段时间后,句柄数量会达到一个相对平稳的状态,大概 3500 左右。这个时候表明程序打开了很多临时句柄,但是句柄数量相对稳定,也不存在句柄泄露问题。
递增

程序在运行当中,某一操作引起了程序打开句柄数量逐步增加,而且没有出现相对平稳的迹象,说明该程序可能存在句柄泄露,需要进一步分析是哪一部分的句柄存在泄漏,以及什么操作会引起程序句柄的泄露。
通过对程序句柄数量进行采样统计,并且绘制出相应的统计图形,能够以比较直观的方式判断在程序中是否存在句柄泄露。该方法基于程序要运行大量的测试用例,增加测试用例的覆盖率,尽可能多的用测试用例触发程序打开和关闭句柄的操作,这样才能发现潜在的句柄泄露 bug。
5.使用场景
场景一:文件系统使用率非常高,可是找不到详细哪个文件占用了空间
场景二:别人打开了一个应用进程,没有记录应用日志输出到那。通过lsof命令找打日志输出位置
场景三:查看某个port是被哪个进程打开
场景四:在卸载一个文件系统时候报device is busy
场景五:利用/proc文件查看进程打开文件
$cat /proc/pid/fd
相关链接
使用实例使用情况:linux删除文件后没有释放空间
flume出现句柄泄露分析过程:tcp socket文件句柄泄漏


浙公网安备 33010602011771号