Linux-CPU篇

硬件-系统-应用
物理 CPU :
    如何知道CPU信息?
    cat /proc/cpuinfo
    dmidecode | less
    dmesg | less
    x86info
关注CPU配置:
    主频          目前2GHz---4GHz
    核心        多个CPU一样
    缓存        L1 L2 L3
    指令        功能vmx
我的应用程序应侧重哪些?
    WEB:    
        主频、核心、缓存
    FTP:
        主频、核心
    DB:
        主频、核心、缓存
    KVM:
        主频、核心、指令
        
        VT-x
        VT-d    (把某个PCI总线设备分配个某个虚拟机)
        VT-c        (可以把网络资源更合理分配)
系统
    Linux Kernel
        32    x86
        64    x86_64
应用
进程是什么?
    是一些资源的集合。
线程是什么?
    1、线程共享进程的资源。
    2、线程在CPU调度的时候跟进程同样待遇。
    程序运行的时候?
    都有独立的地址空间。
    32bit     2的32次幂=4G空间
    线程的地址空间是进程的。
线程查看
    ps aux 所看到[]这个符号的都是内核线程。
    ps auxm
2、进程如何调度?
静态:
FIFO:
    先进先出
RR:
    分时算法
0-99    
chrt -m
vim while.sh
#!/bin.bash
while :
do  true
done
chrt -f 1 ./while.sh    (如果是单核会死机)      
------------    
动态:
OTHER:
    分时算法
BATCH:
    批处理
100-139
===实时进程======|===非实时进程===
top 中有RT字样的是实时进程。
Linux优先实时进程调度。
进程优先级:
0-139
0-99   100-139(有nice值映射过来)
优先级作用?
    1、优先级高会被优先调度。
    2、时间片会不同。
SCHED_FIFO min/max priority     : 1/99
SCHED_RR min/max priority       : 1/99
SCHED_OTHER min/max priority    : 0/0
SCHED_BATCH min/max priority    : 0/0
进程状态:
D   不可中断休眠 (如 I/O的请求)
Z    僵尸进程 (一般是子进程找不到父进程而产生的)
----
S    可中断的休眠状态(可以人为结束)
R    正运行和等待运行的进程
----
T (如后台的任务)
X
----
<
N
l
----
***
=====系统负载=====!!!
uptime

    负载的数字记得跟你的处理器有关。
    举例:
            处理器 1
            数字     <=3
=======CPU使用率=========!!!
TOP工具:
按1 看多核
P cpu 排序
M men 排序
r 改nice 值
Cpu(s):
95.8%us,        用户态  
1.1%sy,          内核态
2.6%ni,          优先级切换
0.0%id,          CPU空闲                ***
0.0%wa,      等待,IO输入输出等待
0.0%hi,          硬中断
0.5%si,          软中断
0.0%st        CPU偷窃时间
======观测占用CPU时间=========应急处理!!!
top    (这个命令本身就挺消耗CPU时间的)
找出 R 状态的进程。
    临时:    使用renice 调整进程的优先级。
    治本:    要明确这个进程的功能了。
            如果有问题的,结束,修改程序。
            如果没有问题,是正常的进程。花钱买CPU。
举例:
    WEB服务器(PHP)
    CPU负载跟CPU使用率都很高,而且CPU不能扩充。
    怎么办?
        “集群“
进程列表:
    ps    只对具体进程进行观测
ps -eo "pid,comm,rss,pcpu" --sort pcpu
ps -eo "pid,comm,rss,pcpu" --sort -pcpu
ps -eo "pid,comm,rss,pcpu,rtprio,ni,pri,stat" --sort -pcpu
=======多核心========
mpstat
    -P ALL
taskset    
    0x00000008    ./while.sh    
cpu3    cpu2   cpu1  cpu0    
   0          0         0        0
=====高级系统检查:======!!!
sysstat 工具组
man sar
sar -u
    使用率
sar -q
    系统平均负载
默认读取当天数据文件:
    /var/log/sa/
立刻采集显示 <interval>  <count>
sar -q 1 100
sar -u 1 10
获取CPU各个核心信息
sar -u -P ALL 1
获取每个进程CPU使用率,注意默认这个数据不记录在数据库。
sar -x ALL 1 3
指定文件读取
sar -u -f /var/log/sa/sa28
输出SAR格式数据
sar -u 1 1 -o /tmp/ooo
根据时间过滤数据
sar -u -s 13:00:00 -e 13:05:01
涉及计划任务
/etc/cron.d/sysstat
    sa1
    sa2
    man sadc
        -F
        -L
        -d    ***
=====临时性绘图gnuplot=======!!
 tar -zxvf sysstat-5.0.5.tar.gz -C /usr/local/src/
LANG=C /usr/local/src/sys5.5/sar -q -f /root/SAR/www.sina.com/sa/sa20  | grep -v '^$' | sed '1,2d;$d' > /tmp/sar.txt
整理数据以文本形式保存到sa
yum list | grep gnuplot
 yum install gnuplot -y
[root@teacher blues]# cat gnuplot.sh
===========================
FILE=/tmp/sar.txt
gnuplot  <<EOF
set xdata time
set timefmt "%H:%M:%S"
set terminal gif size 640,480
set output "/var/www/html/sina.gif"
set title "www.sina.com of STATUS"
set xlabel "TIME"
set ylabel "RUN_proc、Top_proc、LDAG_1min"
set grid
plot \
"$FILE" using 1:2 title "RUN_proc" with lines , "$FILE" using 1:3 title "Top_proc" with lines , "$FILE" using 1:4 title "LDAG_1min" with lines
EOF
==========================
成品:
    mrtg、cacti
    nagios    
----------进程执行时间-----------
time
time tree
统计进程的执行时间
----------进程行为------------
lsof
lsof -i  :22  看谁访问我的 22
lsof -c vsftpd  
看谁访问我的VSFTPD 的详细过程   
mount -o loop  rhel5.5.iso /mnt/
 cd /mnt/
 umount /mnt/
  lsof +d /mnt
 lsof -p  194
COMMAND PID USER   FD      TYPE DEVICE SIZE NODE NAME
aio/0   194 root  cwd       DIR    8,2 4096    2 /
aio/0   194 root  rtd       DIR    8,2 4096    2 /
aio/0   194 root  txt   unknown                  /proc/194/exe

#!/bin/bash
read -p "Please input the process name:" pro
cpuinfo=`ps aux|grep $pro|grep -v "grep"|awk '{print $3}'`
echo The CPU USAGE of the process $pro is:
echo $cpuinfo
meminfo=`ps aux|grep $pro|grep -v "grep"|awk '{print $4}'`
echo The MEM USAGE of the process $pro is:
echo $meminfo
----------进程追踪-----------
ltrace
ltrace   cat /etc/resolv.conf (库追踪)
strace
strace -c cat /etc/resolv.conf(系统追踪)
 echo $$  (查看当前窗口的PID)
16635  输入 d w f
strace -p 16635  (追踪在当前16635 所发生的操作)
Process 16635 attached - interrupt to quit
read(0,  <unfinished ...>
Process 16635 detached
[root@xen /]# strace -p  16635
Process 16635 attached - interrupt to quit
read(0, "d", 1)                         = 1
write(2, "d", 1)                        = 1
rt_sigprocmask(SIG_BLOCK, NULL, [], 8)  = 0
read(0, w"f", 1)                         = 1
write(2, "f", 1)                        = 1
rt_sigprocmask(SIG_BLOCK, NULL, [], 8)  = 0
read(0, "f", 1)                         = 1

 


SAR

linux 性能工具 sar
tags:  sysstat  linux sar
1. 安装 sar
yum install sysstat -y
2.使用 usage:
 man sar
SAR(1)                                                             Linux User's Manual                                                             SAR(1)
NAME
       sar - Collect, report, or save system activity information.
SYNOPSIS
       sar [ -A ] [ -b ] [ -B ] [ -C ] [ -d ] [ -h ] [ -i interval ] [ -m ] [ -p ] [ -q ] [ -r ] [ -R ] [ -S ] [ -t ] [ -u [ ALL ] ] [ -v ] [ -V ] [ -w ]
       [ -W ] [ -y ] [ -n { keyword [,...] | ALL } ] [ -I { int [,...] | SUM | ALL | XALL } ] [ -P { cpu [,...] | ALL } ] [ -o [ filename ] | -f [  file‐
       name ] ] [ -s [ hh:mm:ss ] ] [ -e [ hh:mm:ss ] ] [ interval [ count ] ]
3.补充说明:
sar 常用选项:
-A:所有报告的总和。
-u:CPU利用率
-v:进程、I节点、文件和锁表状态。
-d:硬盘使用报告。
-r:没有使用的内存页面和硬盘块。
-g:串口I/O的情况。
-b:缓冲区使用情况。
-a:文件读写情况。
-c:系统调用情况。
-R:进程的活动情况。
-y:终端设备活动情况。
-w:系统交换活动。
4.示例
例一:使用命令行 sar -u t n
例如,每60秒采样一次,连续采样5次,观察CPU 的使用情况,并将采样结果以二进制形式存入当前目录下的文件zhou中,需键入如下命令:
# sar -u -o zhou 60 5
屏幕显示:
  SCO_SV   scosysv 3.2v5.0.5 i80386   10/01/2001
    14:43:50   %usr   %sys  %wio    %idle(-u)
    14:44:50   0     1    4      94
    14:45:50   0     2    4      93
    14:46:50   0     2    2      96
    14:47:50   0     2    5      93
    14:48:50   0     2    2      96
    Average    0     2    4      94
在显示内容包括:
  %usr:CPU处在用户模式下的时间百分比。
  %sys:CPU处在系统模式下的时间百分比。
  %wio:CPU等待输入输出完成时间的百分比。
  %idle:CPU空闲时间百分比。
在所有的显示中,我们应主要注意%wio和%idle,%wio的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,
有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。
如果要查看二进制文件zhou中的内容,则需键入如下sar命令:
    # sar -u -f zhou
可见,sar命令即可以实时采样,又可以对以往的采样结果进行查询。
例二:使用命行sar -v t n
例如,每30秒采样一次,连续采样5次,观察核心表的状态,需键入如下命令:
# sar -v 30 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz   (-v)
10:33:53 305/ 321  0 1337/2764  0 1561/1706 0 40/ 128
10:34:23 308/ 321  0 1340/2764  0 1587/1706 0 37/ 128
10:34:53 305/ 321  0 1332/2764  0 1565/1706 0 36/ 128
10:35:23 308/ 321  0 1338/2764  0 1592/1706 0 37/ 128
10:35:53 308/ 321  0 1335/2764  0 1591/1706 0 37/ 128
显示内容包括:
proc-sz:目前核心中正在使用或分配的进程表的表项数,由核心参数MAX-PROC控制。
inod-sz:目前核心中正在使用或分配的i节点表的表项数,由核心参数MAX-INODE控制。
file-sz: 目前核心中正在使用或分配的文件表的表项数,由核心参数MAX-FILE控制。
ov:溢出出现的次数。
Lock-sz:目前核心中正在使用或分配的记录加锁的表项数,由核心参数MAX-FLCKRE控制。
显示格式为
实际使用表项/可以使用的表项数
显示内容表示,核心使用完全正常,三个表没有出现溢出现象,核心参数不需调整,如果出现溢出时,要调整相应的核心参数,将对应的表项数加大。
例三:使用命行sar -d t n
例如,每30秒采样一次,连续采样5次,报告设备使用情况,需键入如下命令:
# sar -d 30 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
11:06:43 device %busy   avque   r+w/s  blks/s  avwait avserv (-d)
11:07:13 wd-0   1.47   2.75   4.67   14.73   5.50 3.14
11:07:43 wd-0   0.43   18.77   3.07   8.66   25.11 1.41
11:08:13 wd-0   0.77   2.78   2.77   7.26   4.94 2.77
11:08:43 wd-0   1.10   11.18   4.10   11.26   27.32 2.68
11:09:13 wd-0   1.97   21.78   5.86   34.06   69.66 3.35
Average wd-0   1.15   12.11   4.09   15.19   31.12 2.80
显示内容包括:
device: sar命令正在监视的块设备的名字。
%busy: 设备忙时,传送请求所占时间的百分比。
avque: 队列站满时,未完成请求数量的平均值。
r+w/s: 每秒传送到设备或从设备传出的数据量。
blks/s: 每秒传送的块数,每块512字节。
avwait: 队列占满时传送请求等待队列空闲的平均时间。
avserv: 完成传送请求所需平均时间(毫秒)。
在显示的内容中,wd-0是硬盘的名字,%busy的值比较小,说明用于处理传送请求的有效时间太少,文件系统效率不高,一般来讲,%busy值高些,avque值低些,
文件系统的效率比较高,如果%busy和avque值相对比较高,说明硬盘传输速度太慢,需调整。
例四:使用命行sar -b t n
例如,每30秒采样一次,连续采样5次,报告缓冲区的使用情况,需键入如下命令:
# sar -b 30 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)
14:55:29 0  147  100  5  21  78   0   0
14:55:59 0  186  100  5  25  79   0   0
14:56:29 4  232   98  8  58  86   0   0
14:56:59 0  125  100  5  23  76   0   0
14:57:29 0   89  100  4  12  66   0   0
Average  1  156   99  5  28  80   0   0
显示内容包括:
bread/s: 每秒从硬盘读入系统缓冲区buffer的物理块数。
lread/s: 平均每秒从系统buffer读出的逻辑块数。
%rcache: 在buffer cache中进行逻辑读的百分比。
bwrit/s: 平均每秒从系统buffer向磁盘所写的物理块数。
lwrit/s: 平均每秒写到系统buffer逻辑块数。
%wcache: 在buffer cache中进行逻辑读的百分比。
pread/s: 平均每秒请求物理读的次数。
pwrit/s: 平均每秒请求物理写的次数。
在显示的内容中,最重要的是%cache和%wcache两列,它们的值体现着buffer的使用效率,%rcache的值小于90或者%wcache的值低于65,
应适当增加系统buffer的数量,buffer数量由核心参数NBUF控制,使%rcache达到90左右,%wcache达到80左右。但buffer参数值的多少影响I/O效率,
增加buffer,应在较大内存的情况下,否则系统效率反而得不到提高。
例五:使用命行sar -g t n
例如,每30秒采样一次,连续采样5次,报告串口I/O的操作情况,需键入如下命令:
# sar -g 30 5
屏幕显示:
_SV scosysv 3.2v5.0.5 i80386  11/22/2001
17:07:03  ovsiohw/s  ovsiodma/s  ovclist/s (-g)
17:07:33   0.00   0.00   0.00
17:08:03   0.00   0.00   0.00
17:08:33   0.00   0.00   0.00
17:09:03   0.00   0.00   0.00
17:09:33   0.00   0.00   0.00
Average    0.00   0.00   0.00
显示内容包括:
ovsiohw/s:每秒在串口I/O硬件出现的溢出。
ovsiodma/s:每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。
ovclist/s :每秒字符队列出现的溢出。
在显示的内容中,每一列的值都是零,表明在采样时间内,系统中没有发生串口I/O溢出现象。
sar命令的用法很多,有时判断一个问题,需要几个sar命令结合起来使用,比如,怀疑CPU存在瓶颈,可用sar -u 和sar -q来看,怀疑I/O存在瓶颈,
可用sar -b、sar -u和sar-d来看。

vmstat

Procs
r: 等待运行的进程数 b: 处在非中断睡眠状态的进程数 w: 被交换出去的可运行的进程数。此数由 linux 计算得出,但 linux 并不耗尽交换空间
Memory
swpd: 虚拟内存使用情况,单位:KB
free: 空闲的内存,单位KB
buff: 被用来做为缓存的内存数,单位:KB
Swap
si: 从磁盘交换到内存的交换页数量,单位:KB/秒
so: 从内存交换到磁盘的交换页数量,单位:KB/秒
IO
bi: 发送到块设备的块数,单位:块/秒
bo: 从块设备接收到的块数,单位:块/秒
System
in: 每秒的中断数,包括时钟中断
cs: 每秒的环境(上下文)切换次数
CPU
按 CPU 的总使用百分比来显示
us: CPU 使用时间
sy: CPU 系统使用时间
id: 闲置时间
mpstat [-P {|ALL}] [internal [count]]
参数的含义如下:
参数 解释
-P {|ALL} 表示监控哪个CPU, cpu在[0,cpu个数-1]中取值
internal 相邻的两次采样的间隔时间
count 采样的次数,count只能和delay一起使用
当没有参数时,mpstat则显示系统启动以后所有信息的平均值。有interval时,第一行的信息自系统启动以来的平均信息。从第二行开始,
输出为前一个interval时间段的平均信息。与CPU有关的输出的含义如下:
参数 解释 从/proc/stat获得数据
CPU总的工作时间=total_cur=user+system+nice+idle+iowait+irq+softirq
各値详解:
%user 在internal时间段里,用户态的CPU时间(%),不包含 nice值为负 进程 (usr/total)*100  
%nice 在internal时间段里,nice值为负进程的CPU时间(%)   (nice/total)*100  
%sys  在internal时间段里,核心时间(%)   (system/total)*100
%iowait 在internal时间段里,硬盘IO等待时间(%) (iowait/total)*100
%irq 在internal时间段里,硬中断时间(%)      (irq/total)*100
%soft 在internal时间段里,软中断时间(%)    (softirq/total)*100
%idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%)(idle/total)*100
%intr/s 在internal时间段里,每秒CPU接收的中断的次数intr/total)*100
计算公式:
total_cur=user+system+nice+idle+iowait+irq+softirq
total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq
user=user_cur – user_pre
total=total_cur-total_pre
 其中_cur 表示当前值,_pre表示interval时间前的值。上表中的所有值可取到两位小数点。
 实例: 每2秒产生了2个处理器的统计数据报告
下面的命令可以每2秒产生了2个处理器的统计数据报告,一共产生三个interval 的信息,然后再给出这三个interval的平
均信息。默认时,输出是按照CPU 号排序。第一个行给出了从系统引导以来的所有活跃数据。接下来每行对应一个处理器的
活跃状态。。
cat /proc/stat
“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。
“btime”给出了从系统启动到现在为止的时间,单位为秒。
“processes (total_forks) 自系统启动以来所创建的任务的个数目。
“procs_running”:当前运行队列的任务的数目。
“procs_blocked”:当前被阻塞的任务的数目。

 

posted @ 2018-03-07 16:46  屌丝的IT  阅读(376)  评论(0)    收藏  举报