Linux-CPU篇
硬件-系统-应用
物理 CPU :
如何知道CPU信息?
cat /proc/cpuinfo
dmidecode | less
dmesg | less
x86info
关注CPU配置:
主频 目前2GHz---4GHz
核心 多个CPU一样
缓存 L1 L2 L3
指令 功能vmx
我的应用程序应侧重哪些?
WEB:
主频、核心、缓存
FTP:
主频、核心
DB:
主频、核心、缓存
KVM:
主频、核心、指令
VT-x
VT-d (把某个PCI总线设备分配个某个虚拟机)
VT-c (可以把网络资源更合理分配)
系统
Linux Kernel
32 x86
64 x86_64
应用
进程是什么?
是一些资源的集合。
线程是什么?
1、线程共享进程的资源。
2、线程在CPU调度的时候跟进程同样待遇。
程序运行的时候?
都有独立的地址空间。
32bit 2的32次幂=4G空间
线程的地址空间是进程的。
线程查看
ps aux 所看到[]这个符号的都是内核线程。
ps auxm
2、进程如何调度?
静态:
FIFO:
先进先出
RR:
分时算法
0-99
chrt -m
vim while.sh
#!/bin.bash
while :
do true
done
chrt -f 1 ./while.sh (如果是单核会死机)
------------
动态:
OTHER:
分时算法
BATCH:
批处理
100-139
===实时进程======|===非实时进程===
top 中有RT字样的是实时进程。
Linux优先实时进程调度。
进程优先级:
0-139
0-99 100-139(有nice值映射过来)
优先级作用?
1、优先级高会被优先调度。
2、时间片会不同。
SCHED_FIFO min/max priority : 1/99
SCHED_RR min/max priority : 1/99
SCHED_OTHER min/max priority : 0/0
SCHED_BATCH min/max priority : 0/0
进程状态:
D 不可中断休眠 (如 I/O的请求)
Z 僵尸进程 (一般是子进程找不到父进程而产生的)
----
S 可中断的休眠状态(可以人为结束)
R 正运行和等待运行的进程
----
T (如后台的任务)
X
----
<
N
l
----
***
=====系统负载=====!!!
uptime
负载的数字记得跟你的处理器有关。
举例:
处理器 1
数字 <=3
=======CPU使用率=========!!!
TOP工具:
按1 看多核
P cpu 排序
M men 排序
r 改nice 值
Cpu(s):
95.8%us, 用户态
1.1%sy, 内核态
2.6%ni, 优先级切换
0.0%id, CPU空闲 ***
0.0%wa, 等待,IO输入输出等待
0.0%hi, 硬中断
0.5%si, 软中断
0.0%st CPU偷窃时间
======观测占用CPU时间=========应急处理!!!
top (这个命令本身就挺消耗CPU时间的)
找出 R 状态的进程。
临时: 使用renice 调整进程的优先级。
治本: 要明确这个进程的功能了。
如果有问题的,结束,修改程序。
如果没有问题,是正常的进程。花钱买CPU。
举例:
WEB服务器(PHP)
CPU负载跟CPU使用率都很高,而且CPU不能扩充。
怎么办?
“集群“
进程列表:
ps 只对具体进程进行观测
ps -eo "pid,comm,rss,pcpu" --sort pcpu
ps -eo "pid,comm,rss,pcpu" --sort -pcpu
ps -eo "pid,comm,rss,pcpu,rtprio,ni,pri,stat" --sort -pcpu
=======多核心========
mpstat
-P ALL
taskset
0x00000008 ./while.sh
cpu3 cpu2 cpu1 cpu0
0 0 0 0
=====高级系统检查:======!!!
sysstat 工具组
man sar
sar -u
使用率
sar -q
系统平均负载
默认读取当天数据文件:
/var/log/sa/
立刻采集显示 <interval> <count>
sar -q 1 100
sar -u 1 10
获取CPU各个核心信息
sar -u -P ALL 1
获取每个进程CPU使用率,注意默认这个数据不记录在数据库。
sar -x ALL 1 3
指定文件读取
sar -u -f /var/log/sa/sa28
输出SAR格式数据
sar -u 1 1 -o /tmp/ooo
根据时间过滤数据
sar -u -s 13:00:00 -e 13:05:01
涉及计划任务
/etc/cron.d/sysstat
sa1
sa2
man sadc
-F
-L
-d ***
=====临时性绘图gnuplot=======!!
tar -zxvf sysstat-5.0.5.tar.gz -C /usr/local/src/
LANG=C /usr/local/src/sys5.5/sar -q -f /root/SAR/www.sina.com/sa/sa20 | grep -v '^$' | sed '1,2d;$d' > /tmp/sar.txt
整理数据以文本形式保存到sa
yum list | grep gnuplot
yum install gnuplot -y
[root@teacher blues]# cat gnuplot.sh
===========================
FILE=/tmp/sar.txt
gnuplot <<EOF
set xdata time
set timefmt "%H:%M:%S"
set terminal gif size 640,480
set output "/var/www/html/sina.gif"
set title "www.sina.com of STATUS"
set xlabel "TIME"
set ylabel "RUN_proc、Top_proc、LDAG_1min"
set grid
plot \
"$FILE" using 1:2 title "RUN_proc" with lines , "$FILE" using 1:3 title "Top_proc" with lines , "$FILE" using 1:4 title "LDAG_1min" with lines
EOF
==========================
成品:
mrtg、cacti
nagios
----------进程执行时间-----------
time
time tree
统计进程的执行时间
----------进程行为------------
lsof
lsof -i :22 看谁访问我的 22
lsof -c vsftpd
看谁访问我的VSFTPD 的详细过程
mount -o loop rhel5.5.iso /mnt/
cd /mnt/
umount /mnt/
lsof +d /mnt
lsof -p 194
COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME
aio/0 194 root cwd DIR 8,2 4096 2 /
aio/0 194 root rtd DIR 8,2 4096 2 /
aio/0 194 root txt unknown /proc/194/exe
#!/bin/bash
read -p "Please input the process name:" pro
cpuinfo=`ps aux|grep $pro|grep -v "grep"|awk '{print $3}'`
echo The CPU USAGE of the process $pro is:
echo $cpuinfo
meminfo=`ps aux|grep $pro|grep -v "grep"|awk '{print $4}'`
echo The MEM USAGE of the process $pro is:
echo $meminfo
----------进程追踪-----------
ltrace
ltrace cat /etc/resolv.conf (库追踪)
strace
strace -c cat /etc/resolv.conf(系统追踪)
echo $$ (查看当前窗口的PID)
16635 输入 d w f
strace -p 16635 (追踪在当前16635 所发生的操作)
Process 16635 attached - interrupt to quit
read(0, <unfinished ...>
Process 16635 detached
[root@xen /]# strace -p 16635
Process 16635 attached - interrupt to quit
read(0, "d", 1) = 1
write(2, "d", 1) = 1
rt_sigprocmask(SIG_BLOCK, NULL, [], 8) = 0
read(0, w"f", 1) = 1
write(2, "f", 1) = 1
rt_sigprocmask(SIG_BLOCK, NULL, [], 8) = 0
read(0, "f", 1) = 1
SAR
linux 性能工具 sar
tags: sysstat linux sar
1. 安装 sar
yum install sysstat -y
2.使用 usage:
man sar
SAR(1) Linux User's Manual SAR(1)
NAME
sar - Collect, report, or save system activity information.
SYNOPSIS
sar [ -A ] [ -b ] [ -B ] [ -C ] [ -d ] [ -h ] [ -i interval ] [ -m ] [ -p ] [ -q ] [ -r ] [ -R ] [ -S ] [ -t ] [ -u [ ALL ] ] [ -v ] [ -V ] [ -w ]
[ -W ] [ -y ] [ -n { keyword [,...] | ALL } ] [ -I { int [,...] | SUM | ALL | XALL } ] [ -P { cpu [,...] | ALL } ] [ -o [ filename ] | -f [ file‐
name ] ] [ -s [ hh:mm:ss ] ] [ -e [ hh:mm:ss ] ] [ interval [ count ] ]
3.补充说明:
sar 常用选项:
-A:所有报告的总和。
-u:CPU利用率
-v:进程、I节点、文件和锁表状态。
-d:硬盘使用报告。
-r:没有使用的内存页面和硬盘块。
-g:串口I/O的情况。
-b:缓冲区使用情况。
-a:文件读写情况。
-c:系统调用情况。
-R:进程的活动情况。
-y:终端设备活动情况。
-w:系统交换活动。
4.示例
例一:使用命令行 sar -u t n
例如,每60秒采样一次,连续采样5次,观察CPU 的使用情况,并将采样结果以二进制形式存入当前目录下的文件zhou中,需键入如下命令:
# sar -u -o zhou 60 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
14:43:50 %usr %sys %wio %idle(-u)
14:44:50 0 1 4 94
14:45:50 0 2 4 93
14:46:50 0 2 2 96
14:47:50 0 2 5 93
14:48:50 0 2 2 96
Average 0 2 4 94
在显示内容包括:
%usr:CPU处在用户模式下的时间百分比。
%sys:CPU处在系统模式下的时间百分比。
%wio:CPU等待输入输出完成时间的百分比。
%idle:CPU空闲时间百分比。
在所有的显示中,我们应主要注意%wio和%idle,%wio的值过高,表示硬盘存在I/O瓶颈,%idle值高,表示CPU较空闲,如果%idle值高但系统响应慢时,
有可能是CPU等待分配内存,此时应加大内存容量。%idle值如果持续低于10,那么系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU。
如果要查看二进制文件zhou中的内容,则需键入如下sar命令:
# sar -u -f zhou
可见,sar命令即可以实时采样,又可以对以往的采样结果进行查询。
例二:使用命行sar -v t n
例如,每30秒采样一次,连续采样5次,观察核心表的状态,需键入如下命令:
# sar -v 30 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz (-v)
10:33:53 305/ 321 0 1337/2764 0 1561/1706 0 40/ 128
10:34:23 308/ 321 0 1340/2764 0 1587/1706 0 37/ 128
10:34:53 305/ 321 0 1332/2764 0 1565/1706 0 36/ 128
10:35:23 308/ 321 0 1338/2764 0 1592/1706 0 37/ 128
10:35:53 308/ 321 0 1335/2764 0 1591/1706 0 37/ 128
显示内容包括:
proc-sz:目前核心中正在使用或分配的进程表的表项数,由核心参数MAX-PROC控制。
inod-sz:目前核心中正在使用或分配的i节点表的表项数,由核心参数MAX-INODE控制。
file-sz: 目前核心中正在使用或分配的文件表的表项数,由核心参数MAX-FILE控制。
ov:溢出出现的次数。
Lock-sz:目前核心中正在使用或分配的记录加锁的表项数,由核心参数MAX-FLCKRE控制。
显示格式为
实际使用表项/可以使用的表项数
显示内容表示,核心使用完全正常,三个表没有出现溢出现象,核心参数不需调整,如果出现溢出时,要调整相应的核心参数,将对应的表项数加大。
例三:使用命行sar -d t n
例如,每30秒采样一次,连续采样5次,报告设备使用情况,需键入如下命令:
# sar -d 30 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
11:06:43 device %busy avque r+w/s blks/s avwait avserv (-d)
11:07:13 wd-0 1.47 2.75 4.67 14.73 5.50 3.14
11:07:43 wd-0 0.43 18.77 3.07 8.66 25.11 1.41
11:08:13 wd-0 0.77 2.78 2.77 7.26 4.94 2.77
11:08:43 wd-0 1.10 11.18 4.10 11.26 27.32 2.68
11:09:13 wd-0 1.97 21.78 5.86 34.06 69.66 3.35
Average wd-0 1.15 12.11 4.09 15.19 31.12 2.80
显示内容包括:
device: sar命令正在监视的块设备的名字。
%busy: 设备忙时,传送请求所占时间的百分比。
avque: 队列站满时,未完成请求数量的平均值。
r+w/s: 每秒传送到设备或从设备传出的数据量。
blks/s: 每秒传送的块数,每块512字节。
avwait: 队列占满时传送请求等待队列空闲的平均时间。
avserv: 完成传送请求所需平均时间(毫秒)。
在显示的内容中,wd-0是硬盘的名字,%busy的值比较小,说明用于处理传送请求的有效时间太少,文件系统效率不高,一般来讲,%busy值高些,avque值低些,
文件系统的效率比较高,如果%busy和avque值相对比较高,说明硬盘传输速度太慢,需调整。
例四:使用命行sar -b t n
例如,每30秒采样一次,连续采样5次,报告缓冲区的使用情况,需键入如下命令:
# sar -b 30 5
屏幕显示:
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)
14:55:29 0 147 100 5 21 78 0 0
14:55:59 0 186 100 5 25 79 0 0
14:56:29 4 232 98 8 58 86 0 0
14:56:59 0 125 100 5 23 76 0 0
14:57:29 0 89 100 4 12 66 0 0
Average 1 156 99 5 28 80 0 0
显示内容包括:
bread/s: 每秒从硬盘读入系统缓冲区buffer的物理块数。
lread/s: 平均每秒从系统buffer读出的逻辑块数。
%rcache: 在buffer cache中进行逻辑读的百分比。
bwrit/s: 平均每秒从系统buffer向磁盘所写的物理块数。
lwrit/s: 平均每秒写到系统buffer逻辑块数。
%wcache: 在buffer cache中进行逻辑读的百分比。
pread/s: 平均每秒请求物理读的次数。
pwrit/s: 平均每秒请求物理写的次数。
在显示的内容中,最重要的是%cache和%wcache两列,它们的值体现着buffer的使用效率,%rcache的值小于90或者%wcache的值低于65,
应适当增加系统buffer的数量,buffer数量由核心参数NBUF控制,使%rcache达到90左右,%wcache达到80左右。但buffer参数值的多少影响I/O效率,
增加buffer,应在较大内存的情况下,否则系统效率反而得不到提高。
例五:使用命行sar -g t n
例如,每30秒采样一次,连续采样5次,报告串口I/O的操作情况,需键入如下命令:
# sar -g 30 5
屏幕显示:
_SV scosysv 3.2v5.0.5 i80386 11/22/2001
17:07:03 ovsiohw/s ovsiodma/s ovclist/s (-g)
17:07:33 0.00 0.00 0.00
17:08:03 0.00 0.00 0.00
17:08:33 0.00 0.00 0.00
17:09:03 0.00 0.00 0.00
17:09:33 0.00 0.00 0.00
Average 0.00 0.00 0.00
显示内容包括:
ovsiohw/s:每秒在串口I/O硬件出现的溢出。
ovsiodma/s:每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。
ovclist/s :每秒字符队列出现的溢出。
在显示的内容中,每一列的值都是零,表明在采样时间内,系统中没有发生串口I/O溢出现象。
sar命令的用法很多,有时判断一个问题,需要几个sar命令结合起来使用,比如,怀疑CPU存在瓶颈,可用sar -u 和sar -q来看,怀疑I/O存在瓶颈,
可用sar -b、sar -u和sar-d来看。
vmstat
Procs
r: 等待运行的进程数 b: 处在非中断睡眠状态的进程数 w: 被交换出去的可运行的进程数。此数由 linux 计算得出,但 linux 并不耗尽交换空间
Memory
swpd: 虚拟内存使用情况,单位:KB
free: 空闲的内存,单位KB
buff: 被用来做为缓存的内存数,单位:KB
Swap
si: 从磁盘交换到内存的交换页数量,单位:KB/秒
so: 从内存交换到磁盘的交换页数量,单位:KB/秒
IO
bi: 发送到块设备的块数,单位:块/秒
bo: 从块设备接收到的块数,单位:块/秒
System
in: 每秒的中断数,包括时钟中断
cs: 每秒的环境(上下文)切换次数
CPU
按 CPU 的总使用百分比来显示
us: CPU 使用时间
sy: CPU 系统使用时间
id: 闲置时间
mpstat [-P {|ALL}] [internal [count]]
参数的含义如下:
参数 解释
-P {|ALL} 表示监控哪个CPU, cpu在[0,cpu个数-1]中取值
internal 相邻的两次采样的间隔时间
count 采样的次数,count只能和delay一起使用
当没有参数时,mpstat则显示系统启动以后所有信息的平均值。有interval时,第一行的信息自系统启动以来的平均信息。从第二行开始,
输出为前一个interval时间段的平均信息。与CPU有关的输出的含义如下:
参数 解释 从/proc/stat获得数据
CPU总的工作时间=total_cur=user+system+nice+idle+iowait+irq+softirq
各値详解:
%user 在internal时间段里,用户态的CPU时间(%),不包含 nice值为负 进程 (usr/total)*100
%nice 在internal时间段里,nice值为负进程的CPU时间(%) (nice/total)*100
%sys 在internal时间段里,核心时间(%) (system/total)*100
%iowait 在internal时间段里,硬盘IO等待时间(%) (iowait/total)*100
%irq 在internal时间段里,硬中断时间(%) (irq/total)*100
%soft 在internal时间段里,软中断时间(%) (softirq/total)*100
%idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%)(idle/total)*100
%intr/s 在internal时间段里,每秒CPU接收的中断的次数intr/total)*100
计算公式:
total_cur=user+system+nice+idle+iowait+irq+softirq
total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq
user=user_cur – user_pre
total=total_cur-total_pre
其中_cur 表示当前值,_pre表示interval时间前的值。上表中的所有值可取到两位小数点。
实例: 每2秒产生了2个处理器的统计数据报告
下面的命令可以每2秒产生了2个处理器的统计数据报告,一共产生三个interval 的信息,然后再给出这三个interval的平
均信息。默认时,输出是按照CPU 号排序。第一个行给出了从系统引导以来的所有活跃数据。接下来每行对应一个处理器的
活跃状态。。
cat /proc/stat
“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。
“btime”给出了从系统启动到现在为止的时间,单位为秒。
“processes (total_forks) 自系统启动以来所创建的任务的个数目。
“procs_running”:当前运行队列的任务的数目。
“procs_blocked”:当前被阻塞的任务的数目。