Linux-CPU篇

硬件－系统－应用
物理 CPU ：
   如何知道CPU信息？
   cat /proc/cpuinfo
   dmidecode | less
   dmesg | less
   x86info
关注CPU配置：
   主频       目前2GHz---4GHz
   核心       多个CPU一样
   缓存       L1 L2 L3
   指令       功能vmx
我的应用程序应侧重哪些？
   WEB：
       主频、核心、缓存
   FTP：
       主频、核心
   DB：
       主频、核心、缓存
   KVM：
       主频、核心、指令

       VT-x
       VT-d   (把某个PCI总线设备分配个某个虚拟机)
       VT-c       (可以把网络资源更合理分配)
系统
   Linux Kernel
       32   x86
       64   x86_64
应用
进程是什么？
   是一些资源的集合。
线程是什么？
   1、线程共享进程的资源。
   2、线程在CPU调度的时候跟进程同样待遇。
   程序运行的时候？
   都有独立的地址空间。
   32bit     2的32次幂＝4G空间
   线程的地址空间是进程的。
线程查看
   ps aux 所看到[]这个符号的都是内核线程。
   ps auxm
2、进程如何调度？
静态：
FIFO：
   先进先出
RR：
   分时算法
0-99
chrt -m
vim while.sh
#!/bin.bash
while :
do true
done
chrt -f 1 ./while.sh    (如果是单核会死机)
－－－－－－－－－－－－
动态：
OTHER：
   分时算法
BATCH：
   批处理
100-139
＝＝＝实时进程＝＝＝＝＝＝｜＝＝＝非实时进程＝＝＝
top 中有RT字样的是实时进程。
Linux优先实时进程调度。
进程优先级：
0-139
0-99   100-139(有nice值映射过来)
优先级作用？
   1、优先级高会被优先调度。
   2、时间片会不同。
SCHED_FIFO min/max priority     : 1/99
SCHED_RR min/max priority       : 1/99
SCHED_OTHER min/max priority    : 0/0
SCHED_BATCH min/max priority    : 0/0
进程状态：
D   不可中断休眠（如 I/O的请求）
Z    僵尸进程（一般是子进程找不到父进程而产生的）
----
S    可中断的休眠状态（可以人为结束）
R    正运行和等待运行的进程
----
T （如后台的任务）
X
----
<
N
l
----
***
=====系统负载=====！！！
uptime

   负载的数字记得跟你的处理器有关。
   举例：
           处理器 1
           数字     <=3
=======CPU使用率=========!!!
TOP工具：
按1 看多核
P cpu 排序
M men 排序
r 改nice 值
Cpu(s):
95.8%us,       用户态
1.1%sy,         内核态
2.6%ni,         优先级切换
0.0%id,         CPU空闲               ＊＊＊
0.0%wa,     等待，IO输入输出等待
0.0%hi,         硬中断
0.5%si,         软中断
0.0%st       CPU偷窃时间
======观测占用CPU时间=========应急处理！！！
top   (这个命令本身就挺消耗CPU时间的)
找出 R 状态的进程。
   临时:   使用renice 调整进程的优先级。
   治本：   要明确这个进程的功能了。
           如果有问题的，结束，修改程序。
           如果没有问题，是正常的进程。花钱买CPU。
举例：
   WEB服务器（PHP）
   CPU负载跟CPU使用率都很高，而且CPU不能扩充。
   怎么办？
       “集群“
进程列表:
   ps   只对具体进程进行观测
ps -eo "pid,comm,rss,pcpu" --sort pcpu
ps -eo "pid,comm,rss,pcpu" --sort -pcpu
ps -eo "pid,comm,rss,pcpu,rtprio,ni,pri,stat" --sort -pcpu
=======多核心========
mpstat
   -P ALL
taskset
   0x00000008   ./while.sh
cpu3    cpu2   cpu1 cpu0
   0          0         0        0
＝＝＝＝＝高级系统检查:＝＝＝＝＝＝！！！
sysstat 工具组
man sar
sar -u
   使用率
sar -q
   系统平均负载
默认读取当天数据文件：
   /var/log/sa/
立刻采集显示 <interval> <count>
sar -q 1 100
sar -u 1 10
获取CPU各个核心信息
sar -u -P ALL 1
获取每个进程CPU使用率，注意默认这个数据不记录在数据库。
sar -x ALL 1 3
指定文件读取
sar -u -f /var/log/sa/sa28
输出SAR格式数据
sar -u 1 1 -o /tmp/ooo
根据时间过滤数据
sar -u -s 13:00:00 -e 13:05:01
涉及计划任务
/etc/cron.d/sysstat
   sa1
   sa2
   man sadc
       -F
       -L
       -d   ***
＝＝＝＝＝临时性绘图gnuplot=======!!
tar -zxvf sysstat-5.0.5.tar.gz -C /usr/local/src/
LANG=C /usr/local/src/sys5.5/sar -q -f /root/SAR/www.sina.com/sa/sa20 | grep -v '^$' | sed '1,2d;$d' > /tmp/sar.txt
整理数据以文本形式保存到sa
yum list | grep gnuplot
yum install gnuplot -y
[root@teacher blues]# cat gnuplot.sh
===========================
FILE=/tmp/sar.txt
gnuplot <<EOF
set xdata time
set timefmt "%H:%M:%S"
set terminal gif size 640,480
set output "/var/www/html/sina.gif"
set title "www.sina.com of STATUS"
set xlabel "TIME"
set ylabel "RUN_proc、Top_proc、LDAG_1min"
set grid
plot \
"$FILE" using 1:2 title "RUN_proc" with lines , "$FILE" using 1:3 title "Top_proc" with lines , "$FILE" using 1:4 title "LDAG_1min" with lines
EOF
==========================
成品：
   mrtg、cacti
   nagios
----------进程执行时间-----------
time
time tree
统计进程的执行时间
----------进程行为------------
lsof
lsof -i :22 看谁访问我的 22
lsof -c vsftpd
看谁访问我的VSFTPD 的详细过程
mount -o loop rhel5.5.iso /mnt/
cd /mnt/
umount /mnt/
lsof +d /mnt
lsof -p 194
COMMAND PID USER   FD      TYPE DEVICE SIZE NODE NAME
aio/0   194 root cwd       DIR    8,2 4096    2 /
aio/0   194 root rtd       DIR    8,2 4096    2 /
aio/0   194 root txt   unknown                  /proc/194/exe

#!/bin/bash
read -p "Please input the process name:" pro
cpuinfo=`ps aux|grep $pro|grep -v "grep"|awk '{print $3}'`
echo The CPU USAGE of the process $pro is:
echo $cpuinfo
meminfo=`ps aux|grep $pro|grep -v "grep"|awk '{print $4}'`
echo The MEM USAGE of the process $pro is:
echo $meminfo
----------进程追踪-----------
ltrace
ltrace   cat /etc/resolv.conf (库追踪)
strace
strace -c cat /etc/resolv.conf（系统追踪）
echo $$ （查看当前窗口的PID）
16635 输入 d w f
strace -p 16635 (追踪在当前16635 所发生的操作）
Process 16635 attached - interrupt to quit
read(0, <unfinished ...>
Process 16635 detached
[root@xen /]# strace -p 16635
Process 16635 attached - interrupt to quit
read(0, "d", 1)                         = 1
write(2, "d", 1)                        = 1
rt_sigprocmask(SIG_BLOCK, NULL, [], 8) = 0
read(0, w"f", 1)                         = 1
write(2, "f", 1)                        = 1
rt_sigprocmask(SIG_BLOCK, NULL, [], 8) = 0
read(0, "f", 1)                         = 1

SAR

linux 性能工具 sar
tags: sysstat linux sar
1. 安装 sar
yum install sysstat -y
2.使用 usage:
man sar
SAR(1)                                                             Linux User's Manual                                                             SAR(1)
NAME
       sar - Collect, report, or save system activity information.
SYNOPSIS
       sar [ -A ] [ -b ] [ -B ] [ -C ] [ -d ] [ -h ] [ -i interval ] [ -m ] [ -p ] [ -q ] [ -r ] [ -R ] [ -S ] [ -t ] [ -u [ ALL ] ] [ -v ] [ -V ] [ -w ]
       [ -W ] [ -y ] [ -n { keyword [,...] | ALL } ] [ -I { int [,...] | SUM | ALL | XALL } ] [ -P { cpu [,...] | ALL } ] [ -o [ filename ] | -f [ file‐
       name ] ] [ -s [ hh:mm:ss ] ] [ -e [ hh:mm:ss ] ] [ interval [ count ] ]
3.补充说明：
sar 常用选项：
-A：所有报告的总和。
-u：CPU利用率
-v：进程、I节点、文件和锁表状态。
-d：硬盘使用报告。
-r：没有使用的内存页面和硬盘块。
-g：串口I/O的情况。
-b：缓冲区使用情况。
-a：文件读写情况。
-c：系统调用情况。
-R：进程的活动情况。
-y：终端设备活动情况。
-w：系统交换活动。
4.示例
例一：使用命令行 sar -u t n
例如，每60秒采样一次，连续采样5次，观察CPU 的使用情况，并将采样结果以二进制形式存入当前目录下的文件zhou中，需键入如下命令：
# sar -u -o zhou 60 5
屏幕显示：
　　SCO_SV　　　scosysv　3.2v5.0.5　i80386　　　10/01/2001
　　　　14:43:50　　　%usr　　　%sys　　%wio　　　　%idle(-u)
　　　　14:44:50　　　0　　　　　1　　　　4　　　　　　94
　　　　14:45:50　　　0　　　　　2　　　　4　　　　　　93
　　　　14:46:50　　　0　　　　　2　　　　2　　　　　　96
　　　　14:47:50　　　0　　　　　2　　　　5　　　　　　93
　　　　14:48:50　　　0　　　　　2　　　　2　　　　　　96
　　　　Average　　　 0　　　　　2　　　　4　　　　　　94
在显示内容包括：
　　%usr：CPU处在用户模式下的时间百分比。
　　%sys：CPU处在系统模式下的时间百分比。
　　%wio：CPU等待输入输出完成时间的百分比。
　　%idle：CPU空闲时间百分比。
在所有的显示中，我们应主要注意%wio和%idle，%wio的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，
有可能是CPU等待分配内存，此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。
如果要查看二进制文件zhou中的内容，则需键入如下sar命令：
　　　　# sar -u -f zhou
可见，sar命令即可以实时采样，又可以对以往的采样结果进行查询。
例二：使用命行sar -v t n
例如，每30秒采样一次，连续采样5次，观察核心表的状态，需键入如下命令：
# sar -v 30 5
屏幕显示：
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz　　 (-v)
10:33:53　305/　321 　0　1337/2764　 0　1561/1706　0　40/　128
10:34:23　308/　321 　0　1340/2764　 0　1587/1706　0　37/　128
10:34:53　305/　321 　0　1332/2764　 0　1565/1706　0　36/　128
10:35:23　308/　321 　0　1338/2764　 0　1592/1706　0　37/　128
10:35:53　308/　321　 0　1335/2764　 0　1591/1706　0　37/　128
显示内容包括：
proc-sz：目前核心中正在使用或分配的进程表的表项数，由核心参数MAX-PROC控制。
inod-sz：目前核心中正在使用或分配的i节点表的表项数，由核心参数MAX-INODE控制。
file-sz：目前核心中正在使用或分配的文件表的表项数，由核心参数MAX-FILE控制。
ov：溢出出现的次数。
Lock-sz：目前核心中正在使用或分配的记录加锁的表项数，由核心参数MAX-FLCKRE控制。
显示格式为
实际使用表项/可以使用的表项数
显示内容表示，核心使用完全正常，三个表没有出现溢出现象，核心参数不需调整，如果出现溢出时，要调整相应的核心参数，将对应的表项数加大。
例三：使用命行sar -d t n
例如，每30秒采样一次，连续采样5次，报告设备使用情况，需键入如下命令：
# sar -d 30 5
屏幕显示：
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
11:06:43 device　%busy　　　avque　　　r+w/s　　blks/s　　avwait avserv (-d)
11:07:13 wd-0　　　1.47　　　2.75　　　4.67　　　14.73　　 5.50 3.14
11:07:43 wd-0　　　0.43　　　18.77　　 3.07　　　8.66　　　25.11 1.41
11:08:13 wd-0　　　0.77　　　2.78　　　2.77　　　7.26　　　4.94 2.77
11:08:43 wd-0　　　1.10　　　11.18　　 4.10　　　11.26　　 27.32 2.68
11:09:13 wd-0　　　1.97　　　21.78　　 5.86　　　34.06　　　69.66 3.35
Average wd-0　　　1.15　　　12.11　　 4.09　　　15.19　　　31.12 2.80
显示内容包括：
device： sar命令正在监视的块设备的名字。
%busy：设备忙时，传送请求所占时间的百分比。
avque：队列站满时，未完成请求数量的平均值。
r+w/s：每秒传送到设备或从设备传出的数据量。
blks/s：每秒传送的块数，每块512字节。
avwait：队列占满时传送请求等待队列空闲的平均时间。
avserv：完成传送请求所需平均时间（毫秒）。
在显示的内容中，wd-0是硬盘的名字，%busy的值比较小，说明用于处理传送请求的有效时间太少，文件系统效率不高，一般来讲，%busy值高些，avque值低些，
文件系统的效率比较高，如果%busy和avque值相对比较高，说明硬盘传输速度太慢，需调整。
例四：使用命行sar -b t n
例如，每30秒采样一次，连续采样5次，报告缓冲区的使用情况，需键入如下命令：
# sar -b 30 5
屏幕显示：
SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)
14:55:29　0　　147　　100　 5　　21　　78　　 0　　　0
14:55:59　0　　186　　100　 5　　25　　79　　 0　　　0
14:56:29　4　　232 　　98　 8　　58　　86　　 0　　　0
14:56:59　0　　125　　100　 5　　23　　76　　 0　　　0
14:57:29　0　　 89　　100　 4　　12　　66　　 0　　　0
Average　 1　　156 　　99　 5　　28　　80　　 0　　　0
显示内容包括：
bread/s：每秒从硬盘读入系统缓冲区buffer的物理块数。
lread/s：平均每秒从系统buffer读出的逻辑块数。
%rcache：在buffer cache中进行逻辑读的百分比。
bwrit/s：平均每秒从系统buffer向磁盘所写的物理块数。
lwrit/s：平均每秒写到系统buffer逻辑块数。
%wcache：在buffer cache中进行逻辑读的百分比。
pread/s：平均每秒请求物理读的次数。
pwrit/s：平均每秒请求物理写的次数。
在显示的内容中，最重要的是%cache和%wcache两列，它们的值体现着buffer的使用效率，%rcache的值小于90或者%wcache的值低于65，
应适当增加系统buffer的数量，buffer数量由核心参数NBUF控制，使%rcache达到90左右，%wcache达到80左右。但buffer参数值的多少影响I/O效率，
增加buffer，应在较大内存的情况下，否则系统效率反而得不到提高。
例五：使用命行sar -g t n
例如，每30秒采样一次，连续采样5次，报告串口I/O的操作情况，需键入如下命令：
# sar -g 30 5
屏幕显示：
_SV scosysv 3.2v5.0.5 i80386　　11/22/2001
17:07:03 　ovsiohw/s　 ovsiodma/s　　ovclist/s (-g)
17:07:33　　　0.00　　　0.00　　　0.00
17:08:03　　　0.00　　　0.00　　　0.00
17:08:33　　　0.00　　　0.00　　　0.00
17:09:03　　　0.00　　　0.00　　　0.00
17:09:33　　　0.00　　　0.00　　　0.00
Average 　　　0.00　　　0.00　　　0.00
显示内容包括：
ovsiohw/s：每秒在串口I/O硬件出现的溢出。
ovsiodma/s：每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。
ovclist/s ：每秒字符队列出现的溢出。
在显示的内容中，每一列的值都是零，表明在采样时间内，系统中没有发生串口I/O溢出现象。
sar命令的用法很多，有时判断一个问题，需要几个sar命令结合起来使用，比如，怀疑CPU存在瓶颈，可用sar -u 和sar -q来看，怀疑I/O存在瓶颈，
可用sar -b、sar -u和sar-d来看。

vmstat

Procs
r: 等待运行的进程数 b: 处在非中断睡眠状态的进程数 w: 被交换出去的可运行的进程数。此数由 linux 计算得出，但 linux 并不耗尽交换空间
Memory
swpd: 虚拟内存使用情况，单位：KB
free: 空闲的内存，单位KB
buff: 被用来做为缓存的内存数，单位：KB
Swap
si: 从磁盘交换到内存的交换页数量，单位：KB/秒
so: 从内存交换到磁盘的交换页数量，单位：KB/秒
IO
bi: 发送到块设备的块数，单位：块/秒
bo: 从块设备接收到的块数，单位：块/秒
System
in: 每秒的中断数，包括时钟中断
cs: 每秒的环境（上下文）切换次数
CPU
按 CPU 的总使用百分比来显示
us: CPU 使用时间
sy: CPU 系统使用时间
id: 闲置时间
mpstat [-P {|ALL}] [internal [count]]
参数的含义如下：
参数解释
-P {|ALL} 表示监控哪个CPU， cpu在[0,cpu个数-1]中取值
internal 相邻的两次采样的间隔时间
count 采样的次数，count只能和delay一起使用
当没有参数时，mpstat则显示系统启动以后所有信息的平均值。有interval时，第一行的信息自系统启动以来的平均信息。从第二行开始，
输出为前一个interval时间段的平均信息。与CPU有关的输出的含义如下：
参数解释从/proc/stat获得数据
CPU总的工作时间=total_cur=user+system+nice+idle+iowait+irq+softirq
各値详解：
%user 在internal时间段里，用户态的CPU时间（%），不包含 nice值为负进程 (usr/total)*100
%nice 在internal时间段里，nice值为负进程的CPU时间（%）   (nice/total)*100
%sys 在internal时间段里，核心时间（%）   (system/total)*100
%iowait 在internal时间段里，硬盘IO等待时间（%） (iowait/total)*100
%irq 在internal时间段里，硬中断时间（%）      (irq/total)*100
%soft 在internal时间段里，软中断时间（%）    (softirq/total)*100
%idle 在internal时间段里，CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间（%）(idle/total)*100
%intr/s 在internal时间段里，每秒CPU接收的中断的次数intr/total)*100
计算公式：
total_cur=user+system+nice+idle+iowait+irq+softirq
total_pre=pre_user+ pre_system+ pre_nice+ pre_idle+ pre_iowait+ pre_irq+ pre_softirq
user=user_cur – user_pre
total=total_cur-total_pre
其中_cur 表示当前值，_pre表示interval时间前的值。上表中的所有值可取到两位小数点。
实例: 每2秒产生了2个处理器的统计数据报告
下面的命令可以每2秒产生了2个处理器的统计数据报告，一共产生三个interval 的信息，然后再给出这三个interval的平
均信息。默认时，输出是按照CPU 号排序。第一个行给出了从系统引导以来的所有活跃数据。接下来每行对应一个处理器的
活跃状态。。
cat /proc/stat
“ctxt”给出了自系统启动以来CPU发生的上下文交换的次数。
“btime”给出了从系统启动到现在为止的时间，单位为秒。
“processes (total_forks) 自系统启动以来所创建的任务的个数目。
“procs_running”：当前运行队列的任务的数目。
“procs_blocked”：当前被阻塞的任务的数目。

posted @ 2018-03-07 16:46 屌丝的IT 阅读(400) 评论(0) 收藏举报

刷新页面返回顶部

centos-python

Linux-CPU篇

公告