第七周博客作业

进程,系统性能和计划任务

进程和内存管理

内核功用:进程管理、内存管理、文件系统、网络功能、驱动程序、安全功能等

什么是进程

Process: 运行中的程序的一个副本,是被载入内存的一个指令集合,是资源分配的单位

  • 进程ID(Process ID,PID)号码被用来标记各个进程
  • UID、GID、和SELinux语境决定对文件系统的存取和访问权限
  • 通常从执行进程的用户来继承
  • 存在生命周期
    进程创建:
  • init:第一个进程,从 CentOS7 以后为systemd
  • 进程:都由其父进程创建,fork(),父子关系,CoW:Copy On Write
    进程,线程和协程

查看进程中的线程:

cat /proc/PID/status |grep -i threads

进程结构

内核把进程存放在叫做任务队列(task list)的双向循环链表中
链表中的每一项都是类型为task_struct,称为进程控制块(Processing Control Block),PCB中包含一个具体进程的所有信息
进程控制块PCB包含信息:

  • 进程id、用户id和组id
  • 程序计数器
  • 进程的状态(有就绪、运行、阻塞)
  • 进程切换时需要保存和恢复的CPU寄存器的值
  • 描述虚拟地址空间的信息
  • 描述控制终端的信息
  • 当前工作目录
  • 文件描述符表,包含很多指向file结构体的指针
  • 进程可以使用的资源上限(ulimit –a命令可以查看)
  • 输入输出状态:配置进程使用I/O设备

进程相关概念

Page Frame: 页框,用存储页面数据,存储Page 4k

[root@centos8 ~]#getconf -a |grep -i size
PAGESIZE                           4096
PAGE_SIZE                          4096
SSIZE_MAX                          32767
_POSIX_SSIZE_MAX                   32767
_POSIX_THREAD_ATTR_STACKSIZE       200809
FILESIZEBITS                       64
POSIX_ALLOC_SIZE_MIN               4096
POSIX_REC_INCR_XFER_SIZE           
POSIX_REC_MAX_XFER_SIZE            
POSIX_REC_MIN_XFER_SIZE            4096
LEVEL1_ICACHE_SIZE                 65536
LEVEL1_ICACHE_LINESIZE             64
LEVEL1_DCACHE_SIZE                 32768
LEVEL1_DCACHE_LINESIZE             64
LEVEL2_CACHE_SIZE                  524288
LEVEL2_CACHE_LINESIZE              64
LEVEL3_CACHE_SIZE                  16777216
LEVEL3_CACHE_LINESIZE              64
LEVEL4_CACHE_SIZE                  0
LEVEL4_CACHE_LINESIZE              0

物理地址空间和虚拟地址空间

MMU:Memory Management Unit 负责虚拟地址转换为物理地址
程序在访问一个内存地址指向的内存时,CPU不是直接把这个地址送到内存总线上,而是被送到
MMU(Memory Management Unit),然后把这个内存地址映射到实际的物理内存地址上,然后通过总线再去访问内存,程序操作的地址称为虚拟内存地址
TLB:Translation Lookaside Buffer 翻译后备缓冲器,用于保存虚拟地址和物理地址映射关系的缓存

用户和内核空间

C代码和内存布局之间的对应关系

每个进程都包括5种不同的数据段

  • 代码段:用来存放可执行文件的操作指令,也就是说是它是可执行程序在内存中的镜像。代码段需要防止在运行时被非法修改,所以只准许读取操作,而不允许写入(修改)操作——它是不可写的
  • 数据段:用来存放可执行文件中已初始化全局变量,换句话说就是存放程序静态分配的变量和全局变量
  • BSS段:Block Started by Symbol”的缩写,意为“以符号开始的块,BSS段包含了程序中未初始化的全局变量,在内存中 bss段全部置零
  • 堆(heap):存放数组和对象,堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张);当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)
  • 栈:栈是用户存放程序临时创建的局部变量,也就是说我们函数括弧“{}”中定义的变量(但不包括static声明的变量,static意味着在数据段中存放变量)。除此以外,在函数被调用时,其参数也会被压入发起调用的进程栈中,并且待到调用结束后,函数的返回值也会被存放回栈中。由于栈的后进先出特点,所以栈特别方便用来保存/恢复调用现场。可以把堆栈看成一个寄存、交换临时数据的内存区

进程使用内存问题

内存泄漏:Memory Leak

指程序中用malloc或new申请了一块内存,但是没有用free或delete将内存释放,导致这块内存一直处于占用状态

内存溢出:Memory Overflow

指程序申请了10M的空间,但是在这个空间写入10M以上字节的数据,就是溢出

内存不足:OOM

OOM 即 Out Of Memory,“内存用完了”,在情况在java程序中比较常见。系统会选一个进程将之杀死,在日志messages中看到类似下面的提示
Jul 10 10:20:30 kernel: Out of memory: Kill process 9527 (java) score 88 or sacrifice child
当JVM因为没有足够的内存来为对象分配空间并且垃圾回收器也已经没有空间可回收时,就会抛出这个error,因为这个问题已经严重到不足以被应用处理)。
原因:

  • 给应用分配内存太少:比如虚拟机本身可使用的内存(一般通过启动时的VM参数指定)太少。
  • 应用用的太多,并且用完没释放,浪费了。此时就会造成内存泄露或者内存溢出。
    使用的解决办法:
    1,限制java进程的max heap,并且降低java程序的worker数量,从而降低内存使用
    2,给系统增加swap空间
    设置内核参数(不推荐),不允许内存申请过量:
echo 2 > /proc/sys/vm/overcommit_memory
echo 80 > /proc/sys/vm/overcommit_ratio
echo 2 > /proc/sys/vm/panic_on_oom

说明:
Linux默认是允许memory overcommit的,只要你来申请内存我就给你,寄希望于进程实际上用不到那么多内存,但万一用到那么多了呢?Linux设计了一个OOM killer机制挑选一个进程出来杀死,以腾出部分内存,如果还不够就继续。也可通过设置内核参数 vm.panic_on_oom 使得发生OOM时自动重启系统。这都是有风险的机制,重启有可能造成业务中断,杀死进程也有可能导致业务中断。所以Linux 2.6之后允许通过内核参数 vm.overcommit_memory 禁止memory overcommit。
vm.panic_on_oom 决定系统出现oom的时候,要做的操作。接受的三种取值如下:

0 - 默认值,当出现oom的时候,触发oom killer
1 - 程序在有cpuset、memory policy、memcg的约束情况下的OOM,可以考虑不panic,而是启动OOM 
killer。其它情况触发 kernel panic,即系统直接重启
2 - 当出现oom,直接触发kernel panic,即系统直接重启

vm.overcommit_memory 接受三种取值:

0 – Heuristic overcommit handling. 这是缺省值,它允许overcommit,但过于明目张胆的
overcommit会被拒绝,比如malloc一次性申请的内存大小就超过了系统总内存。Heuristic的意思是“试
探式的”,内核利用某种算法猜测你的内存申请是否合理,它认为不合理就会拒绝overcommit。
1 – Always overcommit. 允许overcommit,对内存申请来者不拒。内核执行无内存过量使用处理。使
用这个设置会增大内存超载的可能性,但也可以增强大量使用内存任务的性能。
2 – Don’t overcommit. 禁止overcommit。 内存拒绝等于或者大于总可用 swap 大小以及
overcommit_ratio 指定的物理 RAM 比例的内存请求。如果您希望减小内存过度使用的风险,这个设置就
是最好的。

Heuristic overcommit算法:
单次申请的内存大小不能超过以下值,否则本次申请就会失败。

free memory + free swap + pagecache的大小 + SLAB

vm.overcommit_memory=2 禁止overcommit,那么怎样才算是overcommit呢?
kernel设有一个阈值,申请的内存总数超过这个阈值就算overcommit,在/proc/meminfo中可以看到这个阈值的大小:

grep -i commit /proc/meminfo
CommitLimit:     5967744 kB
Committed_AS:   5363236 kB

CommitLimit 就是overcommit的阈值,申请的内存总数超过CommitLimit的话就算是overcommit。
此值通过内核参数vm.overcommit_ratio或vm.overcommit_kbytes间接设置的,公式如下:

CommitLimit = (Physical RAM * vm.overcommit_ratio / 100) + Swap

vm.overcommit_ratio 是内核参数,缺省值是50,表示物理内存的50%。如果你不想使用比率,也可以直接指定内存的字节数大小,通过另一个内核参数 vm.overcommit_kbytes 即可;
如果使用了huge pages,那么需要从物理内存中减去,公式变成:

CommitLimit = ([total RAM] – [total huge TLB RAM]) * vm.overcommit_ratio / 100 + 
swap

/proc/meminfo中的 Committed_AS 表示所有进程已经申请的内存总大小,(注意是已经申请的,不是已经分配的),如果 Committed_AS 超过 CommitLimit 就表示发生了 overcommit,超出越多表示overcommit 越严重。Committed_AS 的含义换一种说法就是,如果要绝对保证不发生OOM (out of memory) 需要多少物理内存。

进程状态

进程的基本状态

  • 创建状态:进程在创建时需要申请一个空白PCB(process control block进程控制块),向其中填写控制和管理进程的信息,完成资源分配。如果创建工作无法完成,比如资源无法满足,就无法被调度运行,把此时进程所处状态称为创建状态
  • 就绪状态:进程已准备好,已分配到所需资源,只要分配到CPU就能够立即运行
  • 执行状态:进程处于就绪状态被调度后,进程进入执行状态
  • 阻塞状态:正在执行的进程由于某些事件(I/O请求,申请缓存区失败)而暂时无法运行,进程受到阻塞。在满足请求时进入就绪状态等待系统调用
  • 终止状态:进程结束,或出现错误,或被系统终止,进入终止状态。无法再执行
    状态之间转换六种情况
    运行——>就绪:1,主要是进程占用CPU的时间过长,而系统分配给该进程占用CPU的时间是有限的;
    2,在采用抢先式优先级调度算法的系统中,当有更高优先级的进程要运行时,该进程就被迫让出CPU,
    该进程便由执行状态转变为就绪状态
    就绪——>运行:运行的进程的时间片用完,调度就转到就绪队列中选择合适的进程分配CPU
    运行——>阻塞:正在执行的进程因发生某等待事件而无法执行,则进程由执行状态变为阻塞状态,如发生了I/O请求
    阻塞——>就绪:进程所等待的事件已经发生,就进入就绪队列
    以下两种状态是不可能发生的:
    阻塞——>运行:即使给阻塞进程分配CPU,也无法执行,操作系统在进行调度时不会从阻塞队列进行挑选,而是从就绪队列中选取
    就绪——>阻塞:就绪态根本就没有执行,谈不上进入阻塞态
    进程更多的状态:
  • 运行态:running
  • 就绪态:ready
  • 睡眠态:分为两种,可中断:interruptable,不可中断:uninterruptable
  • 停止态:stopped,暂停于内存,但不会被调度,除非手动启动
  • 僵死态:zombie,僵尸态,结束进程,父进程结束前,子进程不关闭,杀死父进程可以关闭僵死态 的子进程

LRU 算法

LRU:Least Recently Used 近期最少使用算法(喜新厌旧),释放内存

范例:
假设序列为 4 3 4 2 3 1 4 2, 物理块有3个,则
第1轮 4调入内存 4
第2轮 3调入内存 3 4
第3轮 4调入内存 4 3
第4轮 2调入内存 2 4 3
第5轮 3调入内存 3 2 4
第6轮 1调入内存 1 3 2
第7轮 4调入内存 4 1 3
第8轮 2调入内存 2 4 1

IPC 进程间通信

IPC: Inter Process Communication

  • 同一主机:
pipe 管道,单向传输
socket   套接字文件
Memory-maped file   文件映射,将文件中的一段数据映射到物理内存,多个进程共享这片内存
shm shared memory 共享内存
signal 信号
Lock   对资源上锁,如果资源已被某进程锁住,则其它进程想修改甚至读取这些资源,都将被
阻塞,直到锁被打开
semaphore 信号量,一种计数器
  • 不同主机:socket=IP和端口号
RPC remote procedure call
MQ 消息队列,生产者和消费者,如:Kafka,RabbitMQ,ActiveMQ

进程优先级

进程优先级:
系统优先级:数字越小,优先级越高
0-139(CentOS 4,5),各有140个运行队列和过期队列
0-98,99(CentOS 6)
实时优先级: 99-0 值最大优先级最高
nice值:-20到19,对应系统优先级100-139或99
Big O:时间(空间)复杂度,用时(空间)和规模的关系
O(1), O(logn), O(n)线性, O(n^2)抛物线, O(2^n)

进程分类

操作系统分类:

  • 协作式多任务:早期 windows 系统使用,即一个任务得到了 CPU 时间,除非它自己放弃使用
    CPU ,否则将完全霸占 CPU ,所以任务之间需要协作——使用一段时间的 CPU ,主动放弃使用
  • 抢占式多任务:Linux内核,CPU的总控制权在操作系统手中,操作系统会轮流询问每一个任务是否需要使用 CPU ,需要使用的话就让它用,不过在一定时间后,操作系统会剥夺当前任务的 CPU 使用权,把它排在询问队列的最后,再去询问下一个任务
    进程类型:
  • 守护进程: daemon,在系统引导过程中启动的进程,和终端无关进程
  • 前台进程:跟终端相关,通过终端启动的进程
    注意:两者可相互转化
    按进程资源使用的分类:
  • CPU-Bound:CPU密集型,非交互
  • IO-Bound:IO密集型,交互

IO调度算法

在LINUX 2.6中,有四种关于IO的调度算法,下面综合小结一下:

  • NOOP
    NOOP算法的全写为No Operation。该算法实现了最简单的FIFO队列,所有IO请求大致按照先来
    后到的顺序进行操作。之所以说“大致”,原因是NOOP在FIFO的基础上还做了相邻IO请求的合并,并不是完完全全按照先进先出的规则满足IO请求。NOOP假定I/O请求由驱动程序或者设备做了优化或者重排了顺序(就像一个智能控制器完成的工作那样)。在有些SAN环境下,这个选择可能是最好选择。Noop 对于 IO 不那么操心,对所有的 IO请求都用 FIFO 队列形式处理,默认认为 IO 不会存在性能问题。这也使得 CPU 也不用那么操心。当然,对于复杂一点的应用类型,使用这个调度器,用户自己就会非常操心。
  • Deadline scheduler
    DEADLINE在CFQ的基础上,解决了IO请求饿死的极端情况。deadline 算法保证对于既定的 IO 请求以最小的延迟时间,除了CFQ本身具有的IO排序队列之外,DEADLINE额外分别为读IO和写IO提供了FIFO队列。读FIFO队列的最大等待时间为500ms,写FIFO队列的最大等待时间为5s。FIFO队列内的IO请求优先级要比CFQ队列中的高,,而读FIFO队列的优先级又比写FIFO队列的优先级高。优先级可以表示如下:
    FIFO(Read) > FIFO(Write) > CFQ
  • Anticipatory scheduler
    CFQ和DEADLINE考虑的焦点在于满足零散IO请求上。对于连续的IO请求,比如顺序读,并没有做优化。为了满足随机IO和顺序IO混合的场景,Linux还支持ANTICIPATORY调度算法。
    ANTICIPATORY的在DEADLINE的基础上,为每个读IO都设置了6ms 的等待时间窗口。如果在这
    6ms内OS收到了相邻位置的读IO请求,就可以立即满足 Anticipatory scheduler(as) 曾经一度
    是 Linux 2.6 Kernel 的 IO scheduler 。Anticipatory 的中文含义是”预料的, 预想的”, 这个词的确揭示了这个算法的特点,简单的说,有个 IO 发生的时候,如果又有进程请求 IO 操作,则将产生一个默认的 6 毫秒猜测时间,猜测下一个 进程请求 IO 是要干什么的。这对于随即读取会造成比较大的延时,对数据库应用很糟糕,而对于 Web Server 等则会表现的不错。这个算法也可以简单理解为面向低速磁盘的,因为那个”猜测”实际上的目的是为了减少磁头移动时间。
  • CFQ
    CFQ算法的全写为Completely Fair Queuing。该算法的特点是按照IO请求的地址进行排序,而不
    是按照先来后到的顺序来进行响应。 在传统的SAS盘上,磁盘寻道花去了绝大多数的IO响应时
    间。CFQ的出发点是对IO地址进行排序,以尽量少的磁盘旋转次数来满足尽可能多的IO请求。在
    CFQ算法下,SAS盘的吞吐量大大提高了。但是相比于NOOP的缺点是,先来的IO请求并不一定能被满足,可能会出现饿死的情况。
    Completely Fair Queuing (cfq, 完全公平队列) 在 2.6.18 取代了 Anticipatory scheduler 成为
    Linux Kernel 默认的 IO scheduler 。cfq 对每个进程维护一个 IO 队列,各个进程发来的 IO 请求
    会被 cfq 以轮循方式处理。也就是对每一个 IO 请求都是公平的。这使得 cfq 很适合离散读的应用
    (eg: OLTP DB)

进程管理和性能相关工具

Linux系统状态的查看及管理工具:pstree, ps, pidof, pgrep, top, htop, glance, pmap, vmstat, dstat, kill, pkill, job, bg, fg, nohup

进程树 pstree

pstree 可以用来显示进程的父子关系,以树形结构显示
格式:

 pstree   [OPTION] [ PID | USER ]

常用选项:

-p 显示PID
-T 不显示线程thread,默认显示线程
-u 显示用户切换
-H pid 高度指定进程及其前辈进程

进程信息 ps

ps 即process state,可以进程当前状态的快照,默认显示当前终端中的进程,Linux系统各进程的相关信息均保存在/proc/PID目录下的各文件中
ps格式

ps [OPTION]...

支持三种选项:

  • UNIX选项 如: -A -e
  • BSD选项 如: a
  • GNU选项 如: --help
    常用选项:
a 选项包括所有终端中的进程
x 选项包括不链接终端的进程
u 选项显示进程所有者的信息
f 选项显示进程树,相当于 --forest
k|--sort 属性 对属性排序,属性前加 - 表示倒序
o 属性… 选项显示定制的信息 pid、cmd、%cpu、%mem
L 显示支持的属性列表
-C cmdlist 指定命令,多个命令用,分隔
-L 显示线程
-e 显示所有进程,相当于-A
-f 显示完整格式程序信息
-F 显示更完整格式的进程信息
-H 以进程层级格式显示进程相关信息
-u userlist 指定有效的用户ID或名称
-U userlist 指定真正的用户ID或名称
-g gid或groupname 指定有效的gid或组名称
-G gid或groupname 指定真正的gid或组名称
-p pid 显示指pid的进程
--ppid pid 显示属于pid的子进程
-t ttylist 指定tty,相当于 t
-M 显示SELinux信息,相当于Z

ps 输出属性

C : ps -ef 显示列 C 表示cpu利用率
VSZ: Virtual memory SiZe,虚拟内存集,线性内存
RSS: ReSident Size, 常驻内存集
STAT:进程状态
 R:running
 S: interruptable sleeping
 D: uninterruptable sleeping
 T: stopped
 Z: zombie
 +: 前台进程
 l: 多线程进程
 L:内存分页并带锁
 N:低优先级进程
 <: 高优先级进程
 s: session leader,会话(子进程)发起者
 I:Idle kernel thread,CentOS 8 新特性
ni: nice值
pri: priority 优先级
rtprio: 实时优先级
psr: processor CPU编号

常用组合:

aux
-ef
-eFH
-eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,comm
 axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm

查看进程信息prtstat

可以显示进程信息,来自于psmisc包
格式:

prtstat [options] PID ...

选项:

-r raw 格式显示

设置和调整进程优先级

进程优先级调整

  • 静态优先级:100-139
  • 进程默认启动时的nice值为0,优先级为120
  • 只有根用户才能降低nice值(提高优先性)
    nice命令
    以指定的优先级来启动进程
nice [OPTION] [COMMAND [ARG]...]
-n, --adjustment=N   add integer N to the niceness (default 10)

renice命令
可以调整正在执行中的进程的优先级

renice [-n] priority pid...

查看

ps axo pid,comm,ni

搜索进程

按条件搜索进程

  • ps 选项 | grep 'pattern' 灵活
  • pgrep 按预定义的模式
  • /sbin/pidof 按确切的程序名称查看pid
    pgrep 命令格式
pgrep [options] pattern

常用选项

-u uid: effective user,生效者
-U uid: real user,真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名
-a: 显示完整格式的进程名
-P pid: 显示指定进程的子进程

pidof 格式

pidof [options] [program [...]]

常用选项:
-x 按脚本名称查找pid

负载查询 uptime

/proc/uptime 包括两个值,单位 s

  • 系统启动时长
  • 空闲进程的总时长(按总的CPU核数计算)
    uptime 和 w 显示以下内容
  • 当前时间
  • 系统已启动的时间
  • 当前上线人数
  • 系统平均负载(1、5、15分钟的平均负载,一般不会超过1,超过5时建议警报)
    系统平均负载: 指在特定时间间隔内运行队列中的平均进程数,通常每个CPU内核的当前活动进程数不大于3,那么系统的性能良好。如果每个CPU内核的任务数大于5,那么此主机的性能有严重问题
    如:linux主机是1个双核CPU,当Load Average 为6的时候说明机器已经被充分使用

显示CPU相关统计 mpstat

来自于sysstat包

[root@centos8 ~]#yum install -y sysstat
[root@centos8 ~]#mpstat
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4 
CPU)
10:16:43 AM CPU   %usr   %nice   %sys %iowait   %irq   %soft %steal %guest 
%gnice   %idle
10:16:43 AM all    0.01    0.00    0.03    0.00    0.01    0.01    0.00    0.00 
   0.00   99.93
[root@centos8 ~]#mpstat 1 3
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4 
CPU)
10:16:48 AM CPU   %usr   %nice   %sys %iowait   %irq   %soft %steal %guest 
%gnice   %idle
10:16:49 AM all    0.00    0.00    0.25    0.00    0.00    0.00    0.00    0.00 
   0.00   99.75
10:16:50 AM all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 
   0.00  100.00
10:16:51 AM all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 
   0.00  100.00
Average:     all    0.00    0.00    0.08    0.00    0.00    0.00    0.00    0.00 
   0.00   99.92

查看进程实时状态 top

top 提供动态的实时进程状态
有许多内置命令
帮助:h 或 ? ,按 q 或esc 退出帮助
排序:
P:以占据的CPU百分比,%CPU
M:占据内存百分比,%MEM
T:累积占据CPU时长,TIME+
首部信息显示:
uptime信息:l命令
tasks及cpu信息:t命令
cpu分别显示:1 (数字)
memory信息:m命令
退出命令:q
修改刷新时间间隔:s
终止指定进程:k
保存文件:W
top命令栏位信息简介
us:用户空间
sy:内核空间
ni:调整nice时间
id:空闲
wa:等待IO时间
hi:硬中断
si:软中断(模式切换)
st:虚拟机偷走的时间

top选项:
-d # 指定刷新时间间隔,默认为3秒
-b 全部显示所有进程
-n # 刷新多少次后退出
-H 线程模式

htop命令:增强版的TOP命令,来自EPEL源,比top功能更强
选项:
-d #: 指定延迟时间;
-u UserName: 仅显示指定用户的进程
-s COLUME: 以指定字段进行排序
子命令:
s:跟踪选定进程的系统调用
l:显示选定进程打开的文件列表
a:将选定的进程绑定至某指定CPU核心
t:显示进程树

free 内存空间

free 可以显示内存空间使用状态
格式:

free [OPTION]

常用选项:

-b 以字节为单位
-m 以MB为单位
-g 以GB为单位
-h 易读格式
-o 不显示-/+buffers/cache行
-t   显示RAM + swap的总和
-s n 刷新间隔为n秒
-c n 刷新n次后即退出

进程对应的内存映射pmap

格式:

pmap [options] pid [...]

常用选项

-x: 显示详细格式的信息

另外一种实现

cat /proc/PID/maps

虚拟内存信息vmstat

格式:

vmstat [options] [delay [count]]

显示项说明:

procs:
 r:可运行(正运行或等待运行)进程的个数,和核心数有关
 b:处于不可中断睡眠态的进程个数(被阻塞的队列的长度)
memory:
 swpd: 交换内存的使用总量
 free:空闲物理内存总量
 buffer:用于buffer的内存总量
 cache:用于cache的内存总量
swap:
 si:从磁盘交换进内存的数据速率(kb/s)
 so:从内存交换至磁盘的数据速率(kb/s)
io:
 bi:从块设备读入数据到系统的速率(kb/s)
 bo: 保存数据至块设备的速率
system:
 in: interrupts 中断速率,包括时钟
 cs: context switch     进程切换速率
cpu:
 us:Time spent running non-kernel code
 sy: Time spent running kernel code
 id: Time spent idle. Linux 2.5.41前,包括IO-wait time.
 wa: Time spent waiting for IO. 2.5.41前,包括in idle.
 st: Time stolen from a virtual machine. 2.6.11前, unknown.

选项:
-s: 显示内存的统计数据

统计CPU和设备IO信息iostat

由sysstat包提供此工具
范例:

[root@centos8 ~]#iostat 
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4 
CPU)
avg-cpu: %user   %nice %system %iowait %steal   %idle
           0.01    0.00    0.06    0.00    0.00   99.93
Device             tps   kB_read/s   kB_wrtn/s   kB_read   kB_wrtn
sda               0.31         2.57         3.52     238227     326708
scd0              0.01         0.14         0.00      13140          0
[root@centos8 ~]#iostat 1 3
Linux 4.18.0-80.el8.x86_64 (centos8.localdomain) 01/09/2020 _x86_64_ (4 
CPU)
avg-cpu: %user   %nice %system %iowait %steal   %idle
           0.01    0.00    0.06    0.00    0.00   99.93
Device             tps   kB_read/s   kB_wrtn/s   kB_read   kB_wrtn
sda               0.31         2.57         3.52     238227     326708
scd0              0.01         0.14         0.00      13140          0
avg-cpu: %user   %nice %system %iowait %steal   %idle
           0.00    0.00    0.25    0.00    0.00   99.75
Device             tps   kB_read/s   kB_wrtn/s   kB_read   kB_wrtn
sda               0.00         0.00         0.00          0          0
scd0              0.00         0.00         0.00          0          0
avg-cpu: %user   %nice %system %iowait %steal   %idle
           0.00    0.00    0.00    0.00    0.00  100.00
Device             tps   kB_read/s   kB_wrtn/s   kB_read   kB_wrtn
sda               0.00         0.00         0.00          0          0
scd0              0.00         0.00         0.00          0          0

系统资源统计 dstat

dstat 用于代替 vmstat,iostat功能
格式:

dstat [-afv] [options..] [delay [count]]

常用选项

-c 显示cpu相关信息
-C #,#,...,total
-d 显示disk相关信息
-D total,sda,sdb,...
-g 显示page相关统计数据
-m 显示memory相关统计数据
-n 显示network相关统计数据
-p 显示process相关统计数据
-r 显示io请求相关的统计数据
-s 显示swapped相关的统计数据
--tcp
--udp
--unix
--raw
--socket 
--ipc
--top-cpu:显示最占用CPU的进程
--top-io: 显示最占用io的进程
--top-mem: 显示最占用内存的进程
--top-latency: 显示延迟最大的进程

监视磁盘I/O iotop

iotop命令是一个用来监视磁盘I/O使用状况的top类工具iotop具有与top相似的UI,其中包括PID、用户、I/O、进程等相关信息,可查看每个进程是如何使用IO
iotop输出

  • 第一行:Read和Write速率总计
  • 第二行:实际的Read和Write速率
  • 第三行:参数如下:
  • 线程ID(按p切换为进程ID)
  • 优先级
  • 用户
  • 磁盘读速率
  • 磁盘写速率
  • swap交换百分比
  • IO等待所占的百分比
    iotop常用参数
  • -o, --only只显示正在产生I/O的进程或线程,除了传参,可以在运行过程中按o生效
  • -b, --batch非交互模式,一般用来记录日志
  • -n NUM, --iter=NUM设置监测的次数,默认无限。在非交互模式下很有用
  • -d SEC, --delay=SEC设置每次监测的间隔,默认1秒,接受非整形数据例如1.1
  • -p PID, --pid=PID指定监测的进程/线程
  • -u USER, --user=USER指定监测某个用户产生的I/O
  • -P, --processes仅显示进程,默认iotop显示所有线程
  • -a, --accumulated显示累积的I/O,而不是带宽
  • -k, --kilobytes使用kB单位,而不是对人友好的单位。在非交互模式下,脚本编程有用
  • iotop常用参数和快捷键
  • -t, --time 加上时间戳,非交互非模式
  • -q, --quiet 禁止头几行,非交互模式,有三种指定方式
  • -q 只在第一次监测时显示列名
  • -qq 永远不显示列名
  • -qqq 永远不显示I/O汇总
    交互按键
    left和right方向键:改变排序
    r:反向排序
    o:切换至选项--only
    p:切换至--processes选项
    a:切换至--accumulated选项
    q:退出
    i:改变线程的优先级

显示带宽使用情况iftop

通过EPEL源安装

查看网络实时吞吐量nload

nload 是一个实时监控网络流量和带宽使用情况,以数值和动态图展示进出的流量情况,通过EPEL源安装
界面操作
上下方向键、左右方向键、enter键或者tab键都就可以切换查看多个网卡的流量情况
按 F2 显示选项窗口
按 q 或者 Ctrl+C 退出 nload

综合监控工具 glances

此工具可以通过EPEL源安装,CentOS 8 目前没有提供
格式:

glances [-bdehmnrsvyz1] [-B bind] [-c server] [-C conffile] [-p port] [-P 
password] [--password] [-t refresh] [-f file] [-o output]

内建命令:
a Sort processes automatically l Show/hide logs
c Sort processes by CPU% b Bytes or bits for network I/O
m Sort processes by MEM% w Delete warning logs
p Sort processes by name x Delete warning and critical logs
i Sort processes by I/O rate 1 Global CPU or per-CPU stats
d Show/hide disk I/O stats h Show/hide this help screen
f Show/hide file system stats t View network I/O as combination
n Show/hide network stats u View cumulative network I/O
s Show/hide sensors stats q Quit (Esc and Ctrl-C also work)
y Show/hide hddtemp stats
常用选项:

-b: 以Byte为单位显示网卡数据速率
-d: 关闭磁盘I/O模块
-f /path/to/somefile: 设定输入文件位置
-o {HTML|CSV}:输出格式
-m: 禁用mount模块
-n: 禁用网络模块
-t #: 延迟时间间隔
-1:每个CPU的相关数据单独显示

C/S模式下运行glances命令

  • 服务器模式:
    glances -s -B IPADDR
    IPADDR: 指明监听的本机哪个地址
  • 客户端模式:
    glances -c IPADDR
    IPADDR:要连入的服务器端地址

查看进程打开文件 lsof

lsof:list open files查看当前系统文件的工具。在linux环境下,一切皆文件,用户通过文件不仅可以访问常规数据,还可以访问网络连接和硬件如传输控制协议 (TCP) 和用户数据报协议 (UDP)套接字等,系统在后台都为该应用程序分配了一个文件描述符
命令选项:

-a:列出打开文件存在的进程
-c<进程名>:列出指定进程所打开的文件
-g:列出GID号进程详情
-d<文件号>:列出占用该文件号的进程
+d<目录>:列出目录下被打开的文件
+D<目录>:递归列出目录下被打开的文件
-n<目录>:列出使用NFS的文件
-i<条件>:列出符合条件的进程(4、6、协议、:端口、 @ip )
-p<进程号>:列出指定进程号所打开的文件
-u:列出UID号进程详情
-h:显示帮助信息
-v:显示版本信息。
-n: 不反向解析网络名字

CentOS 8 新特性 cockpit

Cockpit 是CentOS 8 取入的新特性,是一个基于 Web 界面的应用,它提供了对系统的图形化管理

  • 监控系统活动(CPU、内存、磁盘 IO 和网络流量)
  • 查看系统日志条目
  • 查看磁盘分区的容量
  • 查看网络活动(发送和接收)
  • 查看用户帐户
  • 检查系统服务的状态
  • 提取已安装应用的信息
  • 查看和安装可用更新(如果以 root 身份登录)并在需要时重新启动系统
  • 打开并使用终端窗口
    范例:安装 cockpit
[root@centos8 ~]#dnf -y install cockpit
[root@centos8 ~]#systemctl enable --now cockpit.socket
Created symlink /etc/systemd/system/sockets.target.wants/cockpit.socket → 
/usr/lib/systemd/system/cockpit.socket.

打开浏览器,访问以下地址:
https://centos8主机:9090

信号发送 kill

kill:内部命令,可用来向进程发送控制信号,以实现对进程管理,每个信号对应一个数字,信号名称以SIG开头(可省略),不区分大小写
显示当前系统可用信号:

kill -l   
trap -l

查看帮助:man 7 signal
常用信号:

1) SIGHUP 无须关闭进程而让其重读配置文件
2) SIGINT 中止正在运行的进程;相当于Ctrl+c
3) SIGQUIT 相当于ctrl+\
9) SIGKILL 强制杀死正在运行的进程
15) SIGTERM 终止正在运行的进程
18) SIGCONT 继续运行
19) SIGSTOP 后台休眠

指定信号的方法 :

  • 信号的数字标识:1, 2, 9
  • 信号完整名称:SIGHUP,sighup
  • 信号的简写名称:HUP,hup
    向进程发送信号:
    按PID:
kill [-s sigspec | -n signum | -sigspec] pid | jobspec ... or kill -l [sigspec]

按名称:

killall [-SIGNAL] comm…

按模式:

pkill [options] pattern

常用选项

-SIGNAL
-u uid: effective user,生效者
-U uid: real user,真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名(pgrep可用)
-a: 显示完整格式的进程名(pgrep可用)
-P pid: 显示指定进程的子进程

作业管理

Linux的作业控制

  • 前台作业:通过终端启动,且启动后一直占据终端
  • 后台作业:可通过终端启动,但启动后即转入后台运行(释放终端)

让作业运行于后台

  • 运行中的作业: Ctrl+z
  • 尚未启动的作业: COMMAND &
    后台作业虽然被送往后台运行,但其依然与终端相关;退出终端,将关闭后台作业。如果希望送往后台后,剥离与终端的关系
  • nohup COMMAND &>/dev/null &
  • screen;COMMAND
    查看当前终端所有作业:
jobs

作业控制:

fg [[%]JOB_NUM]:把指定的后台作业调回前台
bg [[%]JOB_NUM]:让送往后台的作业在后台继续运行
kill [%JOB_NUM]: 终止指定的作业

并行运行

同时运行多个进程,提高效率
方法1

cat all.sh
f1.sh&
f2.sh&
f3.sh&

方法2

(f1.sh&);(f2.sh&);(f3.sh&)

方法3

f1.sh& f2.sh& f3.sh&

任务计划

通过任务计划,可以让系统自动的按时间或周期性任务执行任务
未来的某时间点执行一次任务

  • at 指定时间点,执行一次性任务
  • batch 系统自行选择空闲时间去执行此处指定的任务
    周期性运行某任务
  • cron

一次性任务

at 工具

  • 由包 at 提供
  • 依赖与atd服务,需要启动才能实现at任务
  • at队列存放在/var/spool/at目录中
    at 命令:
at [option] TIME

常用选项:

-V 显示版本信息
-t time   时间格式 [[CC]YY]MMDDhhmm[.ss] 
-l 列出指定队列中等待运行的作业;相当于atq
-d 删除指定的作业;相当于atrm
-c 查看具体作业任务
-f /path/file 指定的文件中读取任务
-m 当任务被完成之后,将给用户发送邮件,即使没有标准输出

注意:

  • 作业执行命令的结果中的标准输出和错误以邮件通知给 root
  • 默认CentOS 8 最小化安装没有安装邮件服务,需要自行安装
    TIME:定义出什么时候进行 at 这项任务的时间
HH:MM [YYYY-mm-dd]
noon, midnight, teatime(4pm)
tomorrow
now+#{minutes,hours,days, OR weeks}

at任务执行方式:

  • 交互式
  • 输入重定向
  • at -f file
    /etc/at.{allow,deny}控制用户是否能执行at任务
  • 白名单:/etc/at.allow 默认不存在,只有该文件中的用户才能执行at命令
  • 黑名单:/etc/at.deny 默认存在,拒绝该文件中用户执行at命令,而没有在at.deny 文件中的使用者则可执行
  • 如果两个文件都不存在,只有 root 可以执行 at 命令

周期性任务计划 cron

周期性任务计划cron相关的程序包:

  • cronie:主程序包,提供crond守护进程及相关辅助工具
  • crontabs:包含CentOS提供系统维护任务
  • cronie-anacron:cronie的补充程序,用于监控cronie任务执行状况,如:cronie中的任务在过去该运行的时间点未能正常运行,则anacron会随后启动一次此任务
    cron任务分为
  • 系统cron任务:系统维护作业,/etc/crontab
  • 用户cron任务: 保存在 /var/spool/cron/USERNAME,利用 crontab 命令管理
    计划任务日志:/var/log/cron

系统cron计划任务

/etc/crontab 格式说明,详情参见 man 5 crontab
注释行以 # 开头

[root@centos8 ~]#cat /etc/crontab 
SHELL=/bin/bash   #默认的SHELL类型
PATH=/sbin:/bin:/usr/sbin:/usr/bin #默认的PATH变量值,可修改为其它路径
MAILTO=root                         #默认标准输出和错误发邮件给root,可以指向其它用户
# For details see man 4 crontabs
# Example of job definition:
# .---------------- minute (0 - 59)
# | .------------- hour (0 - 23)
# | | .---------- day of month (1 - 31)
# | | | .------- month (1 - 12) OR jan,feb,mar,apr ...
# | | | | .---- day of week (0 - 6) (Sunday=0 or 7) OR 
sun,mon,tue,wed,thu,fri,sat
# | | | | |
# * * * * * user-name command to be executed

计划任务时间表示法:

(1) 特定值
 给定时间点有效取值范围内的值
(2) *
 给定时间点上有效取值范围内的所有值
 表示“每...”
(3) 离散取值
 #,#,#
(4) 连续取值
 #-#
(5) 在指定时间范围上,定义步长
 /#: #即为步长
 
(6) 特定关健字
@yearly 0 0 1 1 *
@annually 0 0 1 1 *
@monthly 0 0 1 * *
@weekly 0 0 * * 0
@daily 0 0 * * *
@hourly 0 * * * *
@reboot Run once after reboot

计划任务时间表示法:

(1) 特定值
 给定时间点有效取值范围内的值
(2) *
 给定时间点上有效取值范围内的所有值
 表示“每...”
(3) 离散取值
 #,#,#
(4) 连续取值
 #-#
(5) 在指定时间范围上,定义步长
 /#: #即为步长
(6) 特定关健字
@yearly 0 0 1 1 *
@annually 0 0 1 1 *
@monthly 0 0 1 * *
@weekly 0 0 * * 0
@daily 0 0 * * *
@hourly 0 * * * *
@reboot Run once after reboot

crond任务相关文件:

/etc/crontab 配置文件
/etc/cron.d/ 配置文件
/etc/cron.hourly/ 脚本
/etc/cron.daily/ 脚本
/etc/cron.weekly/ 脚本
/etc/cron.monthly/ 脚本

anacron

运行计算机关机时cron不运行的任务,CentOS6以后版本取消anacron服务,由crond服务管理,对笔记本电脑、台式机、工作站、偶尔要关机的服务器及其它不一直开机的系统很重要对很有用
由/etc/cron.hourly/0anacron执行,当执行任务时,更新/var/spool/anacron/cron.daily 文件的时间戳
配置文件:/etc/anacrontab,负责执行/etc/ cron.daily /etc/cron.weekly /etc/cron.monthly中系统任务
/etc/anacrontab格式说明
字段1:如果在这些日子里没有运行这些任务……
字段2:在重新引导后等待这么多分钟后运行它
字段3:任务识别器,在日志文件中标识
字段4:要执行的任务

管理临时文件

CentOS 7 使用 systemd-tmpfiles-setup服务实现
CentOS 6 使用/etc/cron.daily/tmpwatch定时清除临时文件
配置文件:

/etc/tmpfiles.d/*.conf
/run/tmpfiles.d/*.conf
/usr/lib/tmpfiles/*.conf

/usr/lib/tmpfiles.d/tmp.conf
d /tmp 1777 root root 10d
d /var/tmp 1777 root root 30d
命令:

systemd-tmpfiles –clean|remove|create configfile

用户计划任务

crontab命令:

  • 每个用户都有专用的cron任务文件:/var/spool/cron/USERNAME
  • 默认标准输出和错误会被发邮件给对应的用户,如:wang创建的任务就发送至wang的邮箱
  • root能够修改其它用户的作业
  • 用户的cron 中默认 PATH=/usr/bin:/bin,如果使用其它路径,在任务文件的第一行加PATH=/path
    crontab命令格式:
crontab [-u user] [-l | -r | -e] [-i]

常用选项:

-l 列出所有任务
-e 编辑任务
-r 移除所有任务
-i 同-r一同使用,以交互式模式移除指定任务
-u user 仅root可运行,指定用户管理cron任务

控制用户执行计划任务:
/etc/cron.{allow,deny}
范例:修改默认的cron的文本编辑工具

root@ubuntu1804:~# crontab -e
no crontab for root - using an empty one
Select an editor. To change later, run 'select-editor'.
 1. /bin/nano       <---- easiest
 2. /usr/bin/vim.basic
 3. /usr/bin/vim.tiny
 4. /bin/ed
Choose 1-4 [1]:
root@ubuntu1804:~# cat /etc/profile.d/env.sh
export EDITOR=vim

注意:运行结果的标准输出和错误以邮件通知给相关用户
(1) COMMAND > /dev/null
(2) COMMAND &> /dev/null
cron任务中不建议使用%,它有特殊用途,它表示换行的特殊意义,且第一个%后的所有字符串会被将
成当作命令的标准输入
如果在命令中要使用%,则需要用 \ 转义
注意:将%放置于单引号中是不支持的

posted @ 2020-05-09 22:11  进击的子卿  阅读(242)  评论(0)    收藏  举报