使用blktrace排查iowait cpu高的问题

本文转自这里，blktrace在这种情况下的使用方法值得借鉴学习。

-----------------------------------------------------------------------------------------------------

当出现iowait高时，最重要的是要先找出到底哪个进程在消耗io，以最快的速度解决问题，但linux默认的一些工具例如像top、iostat等都只能看到io的消耗状况，但对应不到是哪个进程在消耗，比较好用的用来定位的工具是iotop，不过有些环境要装上可能不太容易，装上了后直接执行iotop，就可以看到到底是哪个进程消耗了比较多的io，对应解决问题而言，通常在找到进程后杀掉基本就算解决了（还有一种方法是通过打开syslog以及blk_dump来看一段时间内消耗io的进程，但在我的两个case里试过效果不太理想）。

但通常而言，上面的方法只能算勉强解决了问题，但还是没有定位到程序里哪个地方有问题，甚至有可能重启仍然iowait很高，于是需要借助其他工具来进一步排查，所幸系统层面是有这样的工具，主要可通过blktrace/debugfs来定位到到底是读或写哪个（或哪些）文件造成了iowait高（这个方法主要学习自阿里集团内核组的伯瑜的一篇blog）。

在装上了blktrace后，先mount -t debugfs none /sys/kernel/debug下，然后可通过iostat查看到底是哪个设备在消耗io，例如假设看到是sda在消耗，那么即可执行blktrace /dev/sda，在执行时将会自动在执行的目录下生成一些sda.blktrace.*的文件，当觉得采集的差不多后，即可ctrl+c停掉。

之后执行blkparse sda.blktrace.* > result.log，再生成了result.log后执行grep ‘A’ result.log | head -n 5看看在采集的这段过程中，消耗io比较多的地方在哪，例如在我碰到的case中执行后看到的为：
8,0 11 1 0.000071219 248366 A R 218990140 + 16 <- (8,9) 148994872
8,0 11 1 0.000071219 248366 A R 218990140 + 16 <- (8,9) 148994872
8,0 11 1 0.000071219 248366 A R 218990140 + 16 <- (8,9) 148994872
8,0 11 1 0.000071219 248366 A R 218990140 + 16 <- (8,9) 148994872
8,0 11 1 0.000071219 248366 A R 218990140 + 16 <- (8,9) 148994872
这里A后面的R到底的意思是读（如果是写则为WS），和之前iostat看到的是一样的，io主要是大量的读造成的。

通过上面的信息8,0和（8,9）可以看到主要的消耗是在sda9（这个通过iostat也可以看到），(8,9)后的148994872代表读的扇区号。

再通过debugfs -R ‘stats’ /dev/sda9 | grep ‘Block size’可以找到sda9的block size，在我碰到的case中block size是4096，也是通常ext2/ext3文件系统默认的。

每个扇区的大小为512，148994872/(4096/512) = 18624359即可找到文件系统上对应的block号，之后通过debugfs -R ‘icheck 18624359′ /dev/sda9可找到对应的inode，在我碰到的case中，执行后的结果为：
Block Inode number
18624359 18284971
而debugfs还提供了通过inode number找到具体的文件的功能，于是就好办了，继续执行debugfs -R ‘ncheck 18284971’，执行后看到类似如下的信息：
Inode Pathname
18284971 [相应的文件名]
在找到了文件名后就好办了，可结合之前的iotop或直接lsof找出对应的进程id，然后就可以看看从代码上层面怎么避免对此文件的大量读。

除了上面的这种case外，还有些情况的iowait其实是比较简单的，例如读写了巨大的文件（通常在大量出现异常时可能会出现）…

-----------------------------------------------------------------------------------------------------

在解决上周碰到的两个cpu iowait高的case中，其中一个是如上面的业务代码造成，但另一个则是和raid卡配置相关，因为从iostat来看，当时写的量也不是很大，但iowait却比较高，请系统的人帮忙看了后，告诉我是因为raid卡写策略配置的问题，我之前对raid卡的这些配置完全不懂。

通过服务器上会带有raid卡，而现在的raid卡基本是带有cache的，为了保障cache里的数据的安全性，通常raid卡会带有电池或电容，相对而言电容的故障率比较低，raid卡会提供写策略的配置，写策略通常是Write Back和Write Through两种，Wirte Back是指写到cache后即认为写成功，Write Through是指写到磁盘上才算成功，通常Raid卡的写策略会分为正常时，以及电池或电容出问题时两种来配置，而在碰到的case中是因为配置了当电池/电容出问题时采用Write Through，当时机器的Raid卡的电池出故障了，所以导致策略切换为了Write Through，能够支撑的iops自然是大幅度下降了，而在我们的场景中，本地数据丢掉是无所谓的，所以Raid卡的策略可以配置为即使电池出故障了也仍然采用Write Back。

通常各种Raid卡都会提供工具来配置写策略，例如HP卡的hpacucli，可通过cat /proc/scsi/scsi查看硬盘和Raid卡的信息（可以先用cat /proc/mdstat来查看raid信息），有助于确认raid卡的cache/cache容量/电池以及硬盘本身能支撑的iops等。

因为建议在碰到iowait高的场景时，可以先看看raid卡的写策略，如果没问题的话再通过iotop、blktrace、debugfs、lsof等来定位到具体的根源。

posted @ 2015-07-15 23:00 it_arch_notes 阅读(2745) 评论(0) 收藏举报

刷新页面返回顶部

IT架构启示录

微信公众号：IT架构启示录，专注IT系统基础架构，分享知识、方法、方案、资讯与资源等

使用blktrace排查iowait cpu高的问题

公告