linux命令-- lsof命令 一切皆文件

  lsof(list open files)是一个列出当前系统打开文件的工具,它可以列出某个进程打开的所有文件信息。打开的文件可能是普通的文件,目录,NFS文件,块文件,字符文件,共享库,常规管道,明明管道,符号链接,Socket流,网络Socket,UNIX域Socket,以及其它更多。

  在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息,因此通过lsof工具能够查看这个列表对系统监测以及排错将是很有帮助的。

1.命令格式:

lsof [参数][文件]

2.命令功能:

用于查看你进程开打的文件,打开文件的进程,进程打开的端口(TCP、UDP)。找回/恢复删除的文件。是十分方便的系统监视工具,因为 lsof 需要访问核心内存和各种文件,所以需要root用户执行。

lsof打开的文件可以是:

1.普通文件

2.目录

3.网络文件系统的文件

4.字符或设备文件

5.(函数)共享库

6.管道,命名管道

7.符号链接

8.网络文件(例如:NFS file、网络socket,unix域名socket)

9.还有其它类型的文件,等等

3.命令参数:

-a 列出打开文件存在的进程

-c<进程名> 列出指定进程所打开的文件

-g  列出GID号进程详情

-d<文件号> 列出占用该文件号的进程

+d<目录>  列出目录下被打开的文件

+D<目录>  递归列出目录下被打开的文件

-n<目录>  列出使用NFS的文件

-i<条件>  列出符合条件的进程。(4、6、协议、:端口、 @ip )

-p<进程号> 列出指定进程号所打开的文件

-u  列出UID号进程详情

-h 显示帮助信息

-v 显示版本信息

4.使用实例:

实例1:无任何参数,列出所有进程打开的所有文件。

命令:lsof

输出:

[root@localhost ~]# lsof

COMMAND     PID USER   FD      TYPE             DEVICE     SIZE       NODE NAME
init          1 root  cwd       DIR                8,2     4096          2 /
init          1 root  rtd       DIR                8,2     4096          2 /
init          1 root  txt       REG                8,2    43496    6121706 /sbin/init
init          1 root  mem       REG                8,2   143600    7823908 /lib64/ld-2.5.so
init          1 root  mem       REG                8,2  1722304    7823915 /lib64/libc-2.5.so
init          1 root  mem       REG                8,2    23360    7823919 /lib64/libdl-2.5.so
init          1 root  mem       REG                8,2    95464    7824116 /lib64/libselinux.so.1
init          1 root  mem       REG                8,2   247496    7823947 /lib64/libsepol.so.1
init          1 root   10u     FIFO               0,17                1233 /dev/initctl
migration     2 root  cwd       DIR                8,2     4096          2 /
migration     2 root  rtd       DIR                8,2     4096          2 /
migration     2 root  txt   unknown                                        /proc/2/exe
ksoftirqd     3 root  cwd       DIR                8,2     4096          2 /
ksoftirqd     3 root  rtd       DIR                8,2     4096          2 /
ksoftirqd     3 root  txt   unknown                                        /proc/3/exe
migration     4 root  cwd       DIR                8,2     4096          2 /
migration     4 root  rtd       DIR                8,2     4096          2 /
migration     4 root  txt   unknown                                        /proc/4/exe
ksoftirqd     5 root  cwd       DIR                8,2     4096          2 /
ksoftirqd     5 root  rtd       DIR                8,2     4096          2 /
ksoftirqd     5 root  txt   unknown                                        /proc/5/exe
events/0      6 root  cwd       DIR                8,2     4096          2 /
events/0      6 root  rtd       DIR                8,2     4096          2 /
events/0      6 root  txt   unknown                                        /proc/6/exe
events/1      7 root  cwd       DIR                8,2     4096          2 /
 

说明:

lsof输出各列信息的意义如下:

COMMAND:进程的名称

PID:进程标识符

PPID:父进程标识符(需要指定-R参数)

USER:进程所有者

PGID:进程所属组

FD:文件描述符,应用程序通过文件描述符识别该文件。如cwd、txt等

(1)cwd:表示current work dirctory,即:应用程序的当前工作目录,这是该应用程序启动的目录,除非它本身对这个目录进行更改

(2)txt :该类型的文件是程序代码,如应用程序二进制文件本身或共享库,如上列表中显示的 /sbin/init 程序

(3)lnn:library references (AIX);

(4)er:FD information error (see NAME column);

(5)jld:jail directory (FreeBSD);

(6)ltx:shared library text (code and data);

(7)mxx :hex memory-mapped type number xx.

(8)m86:DOS Merge mapped file;

(9)mem:memory-mapped file;

(10)mmap:memory-mapped device;

(11)pd:parent directory;

(12)rtd:root directory;

(13)tr:kernel trace file (OpenBSD);

(14)v86  VP/ix mapped file;

(15)0:表示标准输出

(16)1:表示标准输入

(17)2:表示标准错误

一般在标准输出、标准错误、标准输入后还跟着文件状态模式:r、w、u等

(1)u:表示该文件被打开并处于读取/写入模式

(2)r:表示该文件被打开并处于只读模式

(3)w:表示该文件被打开并处于

(4)空格:表示该文件的状态模式为unknow,且没有锁定

(5)-:表示该文件的状态模式为unknow,且被锁定

同时在文件状态模式后面,还跟着相关的锁

(1)N:for a Solaris NFS lock of unknown type;

(2)r:for read lock on part of the file;

(3)R:for a read lock on the entire file;

(4)w:for a write lock on part of the file;(文件的部分写锁)

(5)W:for a write lock on the entire file;(整个文件的写锁)

(6)u:for a read and write lock of any length;

(7)U:for a lock of unknown type;

(8)x:for an SCO OpenServer Xenix lock on part      of the file;

(9)X:for an SCO OpenServer Xenix lock on the      entire file;

(10)space:if there is no lock.

TYPE:文件类型,如DIR、REG等,常见的文件类型

(1)DIR:表示目录

(2)CHR:表示字符类型

(3)BLK:块设备类型

(4)UNIX: UNIX 域套接字

(5)FIFO:先进先出 (FIFO) 队列

(6)IPv4:网际协议 (IP) 套接字

DEVICE:指定磁盘的名称

SIZE:文件的大小

NODE:索引节点(文件在磁盘上的标识)

NAME:打开文件的确切名称

 

实例2:查看谁正在使用某个文件,也就是说查找某个文件相关的进程

命令:lsof /bin/bash

输出: 

 
[root@localhost ~]# lsof /bin/bash
COMMAND   PID USER  FD   TYPE DEVICE   SIZE    NODE NAME
bash    24159 root txt    REG    8,2 801528 5368780 /bin/bash
bash    24909 root txt    REG    8,2 801528 5368780 /bin/bash
bash    24941 root txt    REG    8,2 801528 5368780 /bin/bash
[root@localhost ~]# lsof /bin/bash /bin/bash2
 

可以同时查看多个打开的文件。

 

实例3:递归查看某个目录的文件信息

命令:lsof test/test3

输出: 

 
[root@localhost ~]# cd /opt/soft/
[root@localhost soft]# lsof test/test3
COMMAND   PID USER   FD   TYPE DEVICE SIZE    NODE NAME
bash    24941 root  cwd    DIR    8,2 4096 2258872 test/test3
vi      24976 root  cwd    DIR    8,2 4096 2258872 test/test3
[root@localhost soft]# 
 

 说明:

1)使用了+D,对应目录下的所有子目录和文件都会被列出

2)使用了+d,只显示对应目录的文件信息,不显示子目录

依照文件夹/home/oracle来搜寻,但不会打开子目录,用来显示目录下被进程开启的文件

[root@svr-db-test ~]# lsof +d /home/oracle

COMMAND  PID   USER   FD   TYPE DEVICE SIZE     NODE NAME
tnslsnr 3520 oracle  cwd    DIR  253,5 4096 11059201 /home/oracle

 

实例4:不使用+D选项,遍历查看某个目录的所有文件信息的方法

命令: lsof |grep 'test/test3'

输出:

[root@localhost soft]# lsof |grep 'test/test3'

bash      24941 root  cwd       DIR                8,2     4096    2258872 /opt/soft/test/test3
vi        24976 root  cwd       DIR                8,2     4096    2258872 /opt/soft/test/test3
vi        24976 root    4u      REG                8,2    12288    2258882 /opt/soft/test/test3/.log2013.log.swp
[root@localhost soft]# 

说明:

 

实例5:列出某个用户打开的文件信息

命令:lsof -u username

如:lsof -u oracle

说明: -u 选项,u其实是user的缩写

 

实例6:列出某个程序进程所打开的文件信息

命令:lsof -c mysql

说明:

 -c 选项将会列出所有以mysql这个进程开头的程序的文件,其实你也可以写成 lsof | grep mysql, 但是第一种方法明显比第二种方法要少打几个字符了

 

实例7:列出多个进程多个打开的文件信息

命令:lsof -c mysql -c apache

 

实例8:列出某个用户以及某个进程所打开的文件信息

命令:lsof  -u test -c mysql 

说明:用户与进程可相关,也可以不相关

 

实例9:列出除了某个用户外的被打开的文件信息

命令:lsof -u ^root

说明:^这个符号在用户名之前,将会把是root用户打开的进程不让显示

 

实例10:通过某个进程号显示该进行打开的文件

命令:lsof -p 1

 

实例11:列出多个进程号对应的文件信息

命令:lsof -p 1,2,3

 

实例12:列出除了某个进程号,其他进程号所打开的文件信息

命令:sof -p ^1

 

实例13:lsof -i 用以显示符合条件的进程情况

 

语法: lsof -i[46] [protocol][@hostname|hostaddr][:service|port]

 

46 --> IPv4 or IPv6

protocol --> TCP or UDP

hostname --> Internet host name

hostaddr --> IPv4位置

service --> /etc/service中的 service name (可以不只一个)

port --> 端口号 (可以不只一个)

 

例:

[root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 -n
COMMAND   PID   USER   FD   TYPE  DEVICE SIZE NODE NAME
oracle  15633 oracle   16u  IPv4 4069605       TCP 192.168.2.203:31580->192.168.2.245:ncube-lm (ESTABLISHED)

 

[root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 
COMMAND   PID   USER   FD   TYPE  DEVICE SIZE NODE NAME
oracle  15633 oracle   16u  IPv4 4069605       TCP 203.aibo.com:31580->192.168.2.245:ncube-lm (ESTABLISHED)

lsof -n 不将IP转换为hostname,缺省是不加上-n参数

 

实例13-1:列出所有的网络连接

命令:lsof -i

实例13-2:列出所有tcp 网络连接信息

命令:lsof -i tcp

实例13-3:列出所有udp网络连接信息

命令:lsof -i udp

实例13-4:列出谁在使用某个端口

命令:lsof -i :3306

实例13-5:列出谁在使用某个特定的udp端口

命令:lsof -i udp:55

或者:特定的tcp端口

命令:lsof -i tcp:80

实例13-6:列出被进程号为1234的进程所打开的所有IPV4 network files 

命令:lsof -i 4 -a -p 1234

实例13-7:列出目前连接主机peida.linux上端口为:20,21,22,25,53,80相关的所有文件信息,且每隔3秒不断的执行lsof指令

命令:lsof -i @peida.linux:20,21,22,25,53,80  -r  3

 

实例14:列出某个用户的所有活跃的网络端口

命令:lsof -a -u test -i

 

实例15:列出所有网络文件系统

命令:lsof -N

 

实例16:域名socket文件

命令:lsof -u

 

实例17:某个用户组所打开的文件信息

命令:lsof -g 5555

 

实例18:根据文件描述列出对应的文件信息

命令:lsof -d description(like 2)

例如:lsof  -d  txt

例如:lsof  -d  1

例如:lsof  -d  2

说明:

0表示标准输入,1表示标准输出,2表示标准错误,从而可知:所以大多数应用程序所打开的文件的 FD 都是从 3 开始

 

实例19:根据文件描述范围列出文件信息

命令:lsof -d 2-3

可使用2-10,表示范围,2,10表示某些值

实例20:列出COMMAND列中包含字符串" sshd",且文件描符的类型为txt的文件信息

命令:lsof -c sshd -a -d txt

输出: 

 
[root@localhost soft]# lsof -c sshd -a -d txt
COMMAND   PID USER  FD   TYPE DEVICE   SIZE    NODE NAME
sshd     2756 root txt    REG    8,2 409488 1027867 /usr/sbin/sshd
sshd    24155 root txt    REG    8,2 409488 1027867 /usr/sbin/sshd
sshd    24905 root txt    REG    8,2 409488 1027867 /usr/sbin/sshd
sshd    24937 root txt    REG    8,2 409488 1027867 /usr/sbin/sshd
[root@localhost soft]# 
[root@localhost soft]# 
 

  

实例21: 仅打印进程,方便shell脚本调用

[root@svr-db-test ~]# lsof -tc sshd
3101
4545

 

实例22:查看进程句柄使用情况,查看几次,用以确定哪个进程在泄漏

 # lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head 

 

使用实例使用情况:socket句柄泄漏问题的定位: losf和strace的联合使用!

  1.  确定哪个进程在泄漏, 可以用命令 lsof -n|awk '{print $2}'| sort | uniq -c | sort -nr | head   ,这个命令找的是打开句柄数目最多的进程, 多敲入几次, 就知道是那个进程在增长了。 而且累积到一定阶段, 泄漏的进程打开的句柄数会增长。  此步骤可以找到泄漏的进程号xxx

       2.  利用ps -aux | grep  xxx  可以确认是那个进程,如mysql

       3.  反复敲入 ll /proc/xxx/fd确认进程的打开句柄数在增长。

       4.  如果这个服务有多个进程, 建议先调节成一个(便于集中分析), 然后用strace -p xxx查看系统调用信息, 然后找到该close但没有close的地方, 很好找的。

       5.  从strace信息中找到网络对端的ip和port,  确认对端服务是干啥的, 然后就知道自己这端对应的代码在哪里了, 圈定了范围, review代码就简单了。

 

如果需要调整单个进程的打开文件句柄数,可用ulimit -HSn 4096  

以上命令中,H指定了硬性大小,S指定了软性大小,n表示设定单个进程最大的打开文件句柄数量

 

实例23:侦测程序句柄泄露的统计方法

造成句柄泄露的主要原因,是进程在调用系统文件之后,没有释放已经打开的文件句柄。在 Linux 系统中,进程与文件之间是通过“打开文件”操作建立连接,文件系统会返回文件句柄来唯一标识进程与文件的连接。每当一个进程执行完毕之后,Linux 系统会将与进程相关的文件句柄自动释放。但是,如果进程一直处于执行状态,文件的句柄只能通过“关闭文件”操作来自我释放。与 Windows 系统的设置不同,Linux 系统对进程可以调用的文件句柄数做了限制,在默认情况下,每个进程可以调用的最大句柄数为 1024 个。超过了这个数值,进程则无法获得新的句柄。因此,句柄的泄露将会对进程的功能失效造成极大的隐患。

通过运行 lsof 工具我们可以得到一个程序打开的所有句柄数量。我们基于统计方法的侦测句柄泄露的基本思想就是:在该程序连续运行的相当长时间内,对它打开的所有句柄数量进行固定周期采样,再利用作图工具对采样数据绘图,通过图形我们基本可以判断该程序是否存在句柄泄露。在程序运行的同时,我们可以运行大量测试用例,尽可能的覆盖程序的所有功能。

下面脚本对某进程采样 3000 个数据,每 10 秒采样一次,依此数据绘制句柄统计趋势图。

#!/bin/sh 
set -x 
echo "">total_handler 
 
psid=`ps -ef|grep $1|head -1|awk '{print $2}'` 
count=0 
while [ $count -lt 3000 ] 
do 
 lsof -p $psid|wc -l >> total_handler 
 sleep 10 
 count=`expr $count + 1` 
done

图形一般分为几种:

平稳

图 4. 平稳图

在程序运行当中,句柄被不断地打开关闭,因此统计图形呈现平稳的锯齿形。在程序运行后期,很多临时打开的句柄被逐渐关闭,总的句柄数量没有随着时间的推移而增加,因此该程序不存在句柄泄露。

峰值稳定

图 5. 峰值稳定图

在该程序运行初期,程序打开的句柄数量会随着时间的推移而逐步增加。但是当运行一段时间后,句柄数量会达到一个相对平稳的状态,大概 3500 左右。这个时候表明程序打开了很多临时句柄,但是句柄数量相对稳定,也不存在句柄泄露问题。

递增

图 6. 递增图

程序在运行当中,某一操作引起了程序打开句柄数量逐步增加,而且没有出现相对平稳的迹象,说明该程序可能存在句柄泄露,需要进一步分析是哪一部分的句柄存在泄漏,以及什么操作会引起程序句柄的泄露。

通过对程序句柄数量进行采样统计,并且绘制出相应的统计图形,能够以比较直观的方式判断在程序中是否存在句柄泄露。该方法基于程序要运行大量的测试用例,增加测试用例的覆盖率,尽可能多的用测试用例触发程序打开和关闭句柄的操作,这样才能发现潜在的句柄泄露 bug。

 

5.使用场景

场景一:文件系统使用率非常高,可是找不到详细哪个文件占用了空间

场景二:别人打开了一个应用进程,没有记录应用日志输出到那。通过lsof命令找打日志输出位置

场景三:查看某个port是被哪个进程打开

场景四:在卸载一个文件系统时候报device is busy

场景五:利用/proc文件查看进程打开文件

$cat /proc/pid/fd

 

 

 

 

 

 

相关链接

使用实例使用情况:linux删除文件后没有释放空间

flume出现句柄泄露分析过程:tcp socket文件句柄泄漏

 

posted @ 2015-07-06 18:08  milkty  阅读(1325)  评论(0)    收藏  举报