操作系统监控

系统资源监控

操作系统监控

cpu监控：top 命令
内存监控：free -m 命令(内存监控：buffer、cache、swap)
磁盘IO监控：iostat -x -k -d 1 (关注指标：%util，磁盘繁忙度) - (提前按照 sysstat：yum install -y sysstat)
磁盘空间监控：df -h 命令
综合监控工具：vmstat 3 （每3秒刷新数，据重点看swap）
超级监控工具：dstat -tcmnd --disk-util（yum install -y dstat）（重点看 %util）
支持数据存储的监控工具：nmon

1、操作系统监控-top命令

top - 09:03:24 up 3 days, 11:02,  2 users,  load average: 0.05, 0.10, 0.11
Tasks: 122 total,   1 running, 121 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.8 us,  1.3 sy,  0.0 ni, 97.5 id,  0.2 wa,  0.0 hi,  0.2 si,  0.0 st
KiB Mem :  1881856 total,   211992 free,   380192 used,  1289672 buff/cache
KiB Swap:        0 total,        0 free,        0 used.  1312560 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                               
 2827 root      20   0 1031840  43936  19432 S   1.0  2.3  48:00.56 YDService                                             
 1141 root      20   0   50088   1096    760 S   0.7  0.1  39:51.81 rshim                                                 
 2900 root      20   0  678192  12524   2456 S   0.3  0.7  17:49.55 barad_agent                                           
11424 root      20   0  157228   5912   4200 S   0.3  0.3   0:04.41 sshd                                                  
    1 root      20   0   43548   3936   2588 S   0.0  0.2   0:22.49 systemd                                               
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.20 kthrea

load average 平均负载，分别表示过去1分钟、5分钟、15分钟 cpu需要执行的任务数量，任务队列的平均长度，重点看 1分钟，不超过CPU核数为佳，超过了需要上下文切换
第二行为当前系统的任务执行情况：总共任务122个，运行中1个，121个睡眠中
第三行为cpu具体数据（关键）：

id（idle)：cpu空闲率，cpu使用率=100%-id（关键）
us ：用户进程使用的cpu,用户安装的程序（关注）
sys：系统进程使用的cpu（关注）
wa：iowait，等待io，磁盘、网络，如果比较高，就需要排查这两个（关注）
hi：硬中断（硬件导致中断） - 鼠标、键盘等外部硬件
si：软中断（软件导致中断） - 任务太多，cpu切换导致中断

以上统计的是CPU整体的使用情况

*** 在top命令中，输入数字1展示每个核的CPU使用情况（本机CPU为两核） ***

top - 09:30:28 up 3 days, 11:29,  2 users,  load average: 0.00, 0.02, 0.05
Tasks: 121 total,   1 running, 120 sleeping,   0 stopped,   0 zombie
%Cpu0  :  1.0 us,  1.3 sy,  0.0 ni, 97.3 id,  0.0 wa,  0.0 hi,  0.3 si,  0.0 st
%Cpu1  :  1.0 us,  1.3 sy,  0.0 ni, 97.3 id,  0.3 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  1881856 total,   358884 free,   382500 used,  1140472 buff/cache
KiB Swap:        0 total,        0 free,        0 used.  1309936 avail Mem 

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND                                               
 2827 root      20   0 1031840  44416  19456 S   1.3  2.4  48:19.84 /usr/local/qcloud/YunJing/YDEyes/YDService            
 1141 root      20   0   50088   1096    760 S   0.7  0.1  40:05.80 /usr/sbin/rshim                                       
    1 root      20   0   43548   3936   2588 S   0.0  0.2   0:22.61 /usr/lib/systemd/systemd --switched-root --system --+ 
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.20 [kthreadd]                                            
    4 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 [kworker/0:0H]                                        
    6 root      20   0       0      0      0 S   0.0  0.0   0:11.32 [ksoftirqd/0]                                         
    7 root      rt   0       0      0      0 S   0.0  0.0   0:05.49 [migration/0]

输入 c 任务进程根据 cpu 使用率排序，进程的 cpu 使用率上限不是100%，而是 cpu核数 x 100%，这里有两个核，上限为200%
输入 m 任务进程根据 memory 使用率排序

2、内存监控：free -m 命令

[root@VM-12-13-centos ~]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1837         374         214           0        1249        1277
Swap:             0           0           0

free -m 以MB为单位显示系统内存的使用情况，同理，也可以使用-k、-g等其他的单位显示
free命令从两个维度统计了内存的使用情况
第一行Mem：从操作系统角度统计内存的total、used、free、buffers、cached，系统可用内存看 available 即可
第二行-/+buffers：从应用程序角度统计内存的total、used、free、buffers、cached

内存监控：buffer(缓冲)、cache、swap

buffer和cache
两者都是Linux下的缓存机制，系统性能更高
buffer为写操作的缓存：即将写入磁盘的数据，先把数据写入buffer，cpu定时将内存中的数据写入磁盘（读写磁盘速度慢）
cache为读操作的缓存：系统从磁盘读取出来的数据，系统第一次从磁盘读取数据出来并放在 cache 中，下次再读取数据时先检查 cache 是否已经存在，存在时则从 cache 中读取，否则从磁盘读取
当前应用系统内存不足时，系统会自动将cache占用的部分内存释放给系统使用

swap
交换空间，磁盘上的一块空间，当系统内存不足时，会使用交换空间

频繁发生swap交换会导致性能问题
未在压测，swap不为0不一定有问题，但在性能测试过程中也正在发生swap（变化），那就是有问题（内存不足）
当前系统真正可用的内存为第一行的：buff/cache + free

3、磁盘IO监控：iostat

需要提前安装好sysstat yum install -y sysstat

1、直接执行 iostst

[root@localhost ~]# iostat
Linux 3.10.0-1160.el7.x86_64 (localhost.localdomain)    2021年09月12日  _x86_64_        (1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          0.03    0.00    0.08   0.01     0.00   99.88

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               0.78        14.99         7.53     252955     127138
dm-0              0.64        14.28         7.41     240987     125070
dm-1              0.01         0.13         0.00       2204          0

%user: 在用户级别运行所使用的CPU的百分比.
%nice: nice操作所使用的CPU的百分比.
%sys: 在系统级别(kernel)运行所使用CPU的百分比.
%iowait: CPU等待硬件I/O时,所占用CPU百分比.
%idle: CPU空闲时间的百分比.

sda 才是真正的磁盘，剩下两个都是虚拟磁盘，可以忽略

单独执行iostat，显示的结果为从系统开机到当前执行时刻的统计信息。以上输出中，除最上面指示系统版本、主机名和日期的一行外，另有两部分：

avg-cpu: 总体cpu使用情况统计信息，对于多核cpu，这里为所有cpu的平均值
Device: 各磁盘设备的IO统计信息
我们可以使用-c选项单独显示avg-cpu部分的结果，使用-d选项单独显示Device部分的信息。
以上输出中，kB_read/s、kB_wrtn/s、kB_read和kB_wrtn的值均以kB为单位，相比以扇区数为单位，这里的值为原值的一半(1kB=512bytes*2)

2、指定采样时间间隔与采样次数
与sar命令一样，我们可以以"iostat interval [count] ”形式指定iostat命令的采样间隔和采样次数：

[root@localhost ~]# iostat -d 1 2
Linux 3.10.0-1160.el7.x86_64 (localhost.localdomain)    2021年09月12日  _x86_64_        (1 CPU)

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               0.79        14.53         7.52     252955     130826
dm-0              0.64        13.85         7.40     240987     128758
dm-1              0.01         0.13         0.00       2204          0

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda               3.12         0.00        17.71          0         17
dm-0              2.08         0.00        17.71          0         17
dm-1              0.00         0.00         0.00          0          0

以上命令输出Device的信息，采样时间为1秒，采样2次，若不指定采样次数，则iostat会一直输出采样信息，直到按”ctrl+c”退出命令。
注意，第1次采样信息与单独执行iostat的效果一样，为从系统开机到当前执行时刻的统计信息。

3、更详细的io统计信息(-x选项)
为显示更详细的io设备统计信息，我们可以使用-x选项，在分析io瓶颈时，一般都会开启-x选项：

[root@VM-12-13-centos ~]# iostat -x
Linux 3.10.0-1160.11.1.el7.x86_64 (VM-12-13-centos)     2022年04月22日  _x86_64_        (2 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           0.44    0.00    0.54    0.04    0.00   98.98

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
vda               0.01     1.75    0.10    2.45     3.83    20.21    18.88     0.01    2.31    3.31    2.27   0.37   0.09
scd0              0.00     0.00    0.00    0.00     0.00     0.00     7.10     0.00    0.30    0.30    0.00   0.30   0.00

以上各列的含义如下：

rrqm/s: 每秒对该设备的读请求被合并次数，文件系统会对读取同块(block)的请求进行合并
wrqm/s: 每秒对该设备的写请求被合并次数
r/s: 每秒完成的读次数
w/s: 每秒完成的写次数
rkB/s: 每秒读数据量(kB为单位)
wkB/s: 每秒往磁盘写数据量(kB为单位)
avgrq-sz:平均每次IO操作的数据量(扇区数为单位)
avgqu-sz: 平均等待处理的IO请求队列长度
await: 平均每次IO请求等待时间(包括等待时间和处理时间，毫秒为单位)
svctm: 平均每次IO请求的处理时间(毫秒为单位)
%util: 采用周期内用于IO操作的时间比率，即IO队列非空的时间比率

从 rkB/s、wkB/s 是无法判断磁盘是否有问题，一般都是看 %util 比率，代表磁盘的繁忙度，高于90%时比较危险

对于以上示例输出，我们可以获取到以下信息：

每秒向磁盘上写20.21M左右数据(wkB/s值)
每秒有 2.55 次IO操作(r/s+w/s)，其中以写操作为主体

判断磁盘是否存在问题：

util = (r/s+w/s) * (svctm/1000)
对于上面的例子有：util = (0.10+2.45)(0.37/1000)100% = 0.09435%
判断磁盘是否有问题，一般都是看 %util 比率，代表磁盘的繁忙度，高于90%时比较危险

4、磁盘空间监控 df -h

df命令可以查看当前系统磁盘空间的使用情况

命令：df -h

[root@localhost ~]# df -h
文件系统                  容量  已用  可用    已用% 挂载点
devtmpfs                 484M     0  484M    0%  /dev
tmpfs                    496M     0  496M    0%  /dev/shm
tmpfs                    496M  6.8M  489M    2%  /run
tmpfs                    496M     0  496M    0%  /sys/fs/cgroup
/dev/mapper/centos-root   17G  3.7G   14G   22%  /
/dev/sda1               1014M  138M  877M   14%  /boot
tmpfs                    100M     0  100M    0%  /run/user/0

一般都使用根目录 /dev/mapper/centos-root 17G 3.7G 14G 22% /
每次压测之前，先检查项目所在服务器的磁盘是否够用（记日志）

5、磁盘写入速度测试

命令：dd if=/dev/zero of=/export/ddtest bs=8k count=1000000 oflag=direct

从系统的某个文件拷贝到另一个文件夹下，每次拷贝8kb，共拷贝一百万次
/dev/zero 为系统无限输出的文件，可以产生无数的数据量
/export/ddtest 写入数据的目的文件，为自定义文件(/root/server/ddtest)

dd if=/dev/zero of=/root/server/ddtest bs=8k count=1000000 oflag=direct

[root@localhost server]# dd if=/dev/zero of=/root/server/ddtest bs=8k count=1000000 oflag=direct
^C记录了285180+0 的读入
记录了285180+0 的写出
2336194560字节(2.3 GB)已复制，56.0663 秒，41.7 MB/秒

6、综合监控工具-vmstat（重点看 swap 的数据）

vmstat命令综合了CPU、进程、内存、磁盘IO等信息

命令：vmstat 3 每3秒刷新一次数据
主要时用来对 swap 进行统计，如果swap的 si、so 长时间不为0 ，代表当前正在频繁进行swap，系统内存不够用了
si表示当前(三秒钟之内)每秒交换回内存(Swap in)的总量，单位为kbytes
so表示当前(三秒钟之内)每秒交换出内存(Swap out)的总量，单位为kbytes

[root@localhost server]# vmstat 1
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 2  0      0 212380   2108 395904    0    0     7    71   76  133  0  1 99  0  0
 0  0      0 212264   2108 395892    0    0     0    22  131  208  2  3 95  0  0
 0  0      0 212264   2108 395896    0    0     0     0  119  181  0  1 99  0  0
 0  0      0 212104   2108 395896    0    0     0     0  226  272  3  3 94  0  0
 0  0      0 212244   2108 395908    0    0     0     0  106  177  0  2 98  0  0
 0  0      0 212256   2108 395912    0    0     0    21  110  182  1  1 98  0  0
 0  0      0 212124   2108 395916    0    0     0     0  217  289  2  3 95  0  0

7、超级监控工具-dstat

dstat是一个全能监控工具，整合了CPU、内存、磁盘、网络等几乎所有的监控项，支持实时刷新

dstat需要先进行安装 yum install -y dstat
查看常用命令参：dstat --help
监控命令：dstat -tcmnd --disk-util

[root@localhost server]# dstat -tcmnd --disk-util
----system---- ----total-cpu-usage---- ------memory-usage----- -net/total- -dsk/total- sda-
     time     |usr sys idl wai hiq siq| used  buff  cach  free| recv  send| read  writ|util
12-09 22:24:18|  0   1  99   0   0   0| 425M 2108k  358M  206M|   0     0 |7398B   68k|0.20
12-09 22:24:19|  1   2  97   0   0   0| 426M 2108k  358M  205M|1792B 3220B|   0     0 |   0
12-09 22:24:20|  2   2  96   0   0   0| 426M 2108k  358M  205M|2320B 5588B|   0     0 |   0
12-09 22:24:21|  2   3  95   0   0   0| 426M 2108k  358M  205M|4134B   11k|   0    23k|0.30
12-09 22:24:22|  1   2  97   0   0   0| 426M 2108k  358M  205M|1792B 2628B|   0     0 |   0
12-09 22:24:23|  1   1  98   0   0   0| 426M 2108k  358M  205M|2464B 4862B|   0     0 |   0
12-09 22:24:24|  1   4  94   0   0   1| 426M 2108k  358M  205M|3950B   11k|   0     0 |   0
12-09 22:24:25|  1   1  98   0   0   0| 426M 2108k  358M  205M|1852B 2612B|   0    17k|0.10^C

1、网络受吞吐量最差的那个组件限制
2、局域网内，不受带宽限制
3、每个组件与应用程序的上限对比
4、网络设备一般是千兆网卡（125MB）

8、网络IO监控

有点复杂

posted @ 2021-09-12 19:27 DeyouKong 阅读(673) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

DeyouKong

操作系统监控

系统资源监控

操作系统监控

1、操作系统监控-top命令

2、内存监控：free -m 命令

3、磁盘IO监控：iostat

4、磁盘空间监控 df -h

5、磁盘写入速度测试

6、综合监控工具-vmstat（重点看 swap 的数据）

7、超级监控工具-dstat

8、网络IO监控

公告