负载排查和分析四

明白，我给你提供完整整合后的最终文档版本，把软/硬中断触发机制、背景、流程、表格全部补充进去，保持原有网络优化、Perf 分析、脚本和流程图不变。

Linux 网络优化与性能分析完全指南（最终完整版）

1️⃣ 中断与软中断基础

1.1 中断（IRQ）概念

定义：CPU 在执行任务时，外设或内核事件请求 CPU 立即响应。
作用：保证系统及时响应硬件或内核事件。

1.2 硬中断（Hard IRQ）

背景

硬中断由硬件设备发起，目的是让 CPU 立即响应外设事件，典型场景包括：

网络接口卡（NIC）收到数据包 → 网络收包中断
磁盘 I/O 完成 → 磁盘控制器中断
定时器到期 → 系统定时器中断

触发流程

硬件事件发生
      │
      ▼
中断控制器接收请求 (APIC/IO-APIC)
      │
      ▼
CPU 当前执行上下文被打断
      │
      ▼
中断向量表定位中断服务程序 (ISR)
      │
      ▼
ISR 执行快速处理 (top half)
      │
      ▼
触发软中断/调度延迟任务 (bottom half)

查看

cat /proc/interrupts

内核触发示例（模拟硬中断）

// 内核模块中触发硬中断
generic_handle_irq(irq_number);

用户态：❌ 不能直接触发硬中断
内核态：✅ 可模拟触发（仅 ISR，不产生真实硬件事件）

1.3 软中断（Soft IRQ）

背景

硬中断完成后，为了 减轻 ISR 压力、分散 CPU 处理任务，内核将部分工作延迟到软中断执行。典型应用：

网络数据包接收处理（NET_RX_SOFTIRQ）
定时器、调度任务
block I/O 完成处理

触发流程

硬中断 ISR 执行完成
      │
      ▼
ISR 调用 raise_softirq(softirq_type)
      │
      ▼
软中断挂起，等待 ksoftirqd 调度
      │
      ▼
ksoftirqd 内核线程执行延迟任务 (bottom half)

查看

cat /proc/softirqs

内核触发示例

// 内核中触发网络软中断
raise_softirq(NET_RX_SOFTIRQ);

用户态：❌ 不可直接触发
内核态：✅ 可以触发，用于驱动调试或延迟任务测试

1.4 硬/软中断关联与触发对比

触发顺序：
硬件事件 → 硬中断触发 CPU → 完成快速处理 → 触发软中断 → ksoftirqd 执行延迟任务
优化方向：
- 硬中断：IRQ 绑核
- 软中断：RPS/RFS 分发到多核

项目	硬中断（Hard IRQ）	软中断（Soft IRQ）
来源	硬件事件	硬中断完成后由内核触发
用户态触发	❌	❌
内核态触发	✅ `generic_handle_irq()`	✅ `raise_softirq()`
执行上下文	CPU 当前上下文	ksoftirqd 内核线程
优先级	高	中
典型用途	网络收包、磁盘 I/O、定时器	网络包处理、调度延迟任务、I/O 完成处理
调试/模拟用途	内核驱动测试	内核延迟任务调试、RPS/RFS 调优

2️⃣ 网络优化基础

2.1 网卡 Offload

作用：减轻 CPU 负载，让网卡处理部分网络协议。
参数：TSO/GSO/GRO
查看：

ethtool -k eth0

开启：

ethtool -K eth0 tso on gso on gro on

2.2 IRQ 绑核

作用：将硬中断绑定到指定 CPU，提高多核性能。
设置：

echo 2-15 > /proc/irq/<IRQ>/smp_affinity_list

2.3 RPS / RFS（软中断分发）

作用：将软中断分发到多核，提高网络吞吐量。
查看：

cat /sys/class/net/eth0/queues/rx-*/rps_cpus
cat /sys/class/net/eth0/queues/rx-*/rps_flow_cnt

2.4 TCP/UDP Buffer

作用：增大内核缓冲区，提升高并发性能。
参数：

net.core.rmem_max
net.core.wmem_max
net.ipv4.tcp_rmem
net.ipv4.tcp_wmem

3️⃣ 网络优化脚本

#!/bin/bash
# network_optimize.sh
NIC="eth0"
CPULIST="2-15"
RMEM_MAX=16777216
WMEM_MAX=16777216
TCP_RMEM="4096 87380 16777216"
TCP_WMEM="4096 87380 16777216"
RPS_CPUS="ffff"
RPS_FLOW_ENTRIES=32768

echo "=== 网络优化: $NIC ==="

# 查询默认值
ethtool -k $NIC
for irq in $(grep "$NIC" /proc/interrupts | awk -F: '{print $1}'); do
    echo "$irq: $(cat /proc/irq/$irq/smp_affinity_list)"
done
sysctl net.core.rmem_max net.core.wmem_max net.ipv4.tcp_rmem net.ipv4.tcp_wmem
for q in /sys/class/net/$NIC/queues/rx-*; do
    echo "$q: RPS=$(cat $q/rps_cpus) FLOW=$(cat $q/rps_flow_cnt)"
done

# 设置优化参数
ethtool -K $NIC tso on gso on gro on
for irq in $(grep "$NIC" /proc/interrupts | awk -F: '{print $1}'); do
    echo $CPULIST > /proc/irq/$irq/smp_affinity_list
done
sysctl -w net.core.rmem_max=$RMEM_MAX
sysctl -w net.core.wmem_max=$WMEM_MAX
sysctl -w net.ipv4.tcp_rmem="$TCP_RMEM"
sysctl -w net.ipv4.tcp_wmem="$TCP_WMEM"
for q in /sys/class/net/$NIC/queues/rx-*; do
    echo $RPS_CPUS > $q/rps_cpus
    echo $RPS_FLOW_ENTRIES > $q/rps_flow_cnt
done

# 打印状态
ethtool -k $NIC

4️⃣ 完全动态软中断统计脚本

#!/bin/bash
awk '
BEGIN { delete counts; delete names; num=0 }
NR==1 { ncpus=NF-1; next }
{ type=$1; gsub(/:/,"",type); if (!(type in counts)) { num++; names[num]=type } 
  for(i=2;i<=NF;i++) counts[type]+=$i }
END { 
  total=0; for(t in counts) total+=counts[t]
  printf "%-12s %12s %8s\n","类型","总数","占比(%)"
  PROCINFO["sorted_in"]="@val_num_desc"
  for(t in counts) printf "%-12s %12d %8.2f\n",t,counts[t],counts[t]*100/total
  printf "总计 %12d 100.00\n", total
}' /proc/softirqs

5️⃣ 完全动态硬中断统计脚本

#!/bin/bash
awk '
BEGIN { printf "%-20s %-30s %-12s %-10s\n","控制器","设备","中断数","占比(%)"; print "---------------------------------------------" }
NR==1 { ncpus=NF-1; next }
/:/ && $1 ~ /^[0-9]+:/ {
  irq=substr($1,1,length($1)-1)
  sum=0; for(i=2;i<=1+ncpus;i++) sum+=$i
  if(sum==0) next
  ctrl=$(NF-1); dev=$NF
  total+=sum; counts[ctrl "|" dev]+=sum; ctrl_totals[ctrl]+=sum
}
END {
  PROCINFO["sorted_in"]="@val_num_desc"
  for(k in counts) { split(k,p,"|"); printf "%-20s %-30s %-12d %-9.2f\n", p[1],p[2],counts[k],counts[k]*100/total }
  print "========================================"
  for(c in ctrl_totals) printf "%-20s %-12d %-9.2f\n", c, ctrl_totals[c], ctrl_totals[c]*100/total
  printf "%-20s %-12d %-10s\n","总中断",total,"100.00%"
}' /proc/interrupts

6️⃣ Perf 性能分析流程

Step1: 基础统计

perf stat -a -d sleep 5

指标	含义	工具	分析方法	可能原因
cycles	CPU 时钟周期	perf stat	与 instructions 比较	CPU pipeline stall
instructions	执行指令数	perf stat	CPI=cycles/instructions	CPU pipeline stall
cache-references	缓存访问次数	perf stat	比较 cache-miss	高 miss → CPU stall/NUMA
cache-misses	缓存未命中次数	perf stat	cache miss rate	CPU stall / NUMA 远程访问
branch-instructions	分支指令数	perf stat	branch-misses rate	分支预测失误 → pipeline stall
branch-misses	分支错误次数	perf stat	branch-miss 分析	高 → pipeline stall
context-switches	上下文切换次数	perf stat/sched	高但 syscall 正常	调度/锁争用
cpu-migrations	进程迁移次数	perf stat	perf sched/top	NUMA、负载均衡
page-faults	页面错误次数	perf stat/vmstat	高 → 内存不足或 NUMA 远程访问	内存压力
minor-faults	非阻塞页错误	perf stat/vmstat	频繁 → 内存压力	内存不足
major-faults	阻塞页错误	perf stat/iostat	频繁 → I/O 或内存压力	磁盘/网络 I/O 瓶颈
cycles.stalled	CPU 停顿周期	perf stat	cycles stalled 分析	pipeline stall / cache miss
instructions.retired	指令完成数	perf stat	CPI/IPC 分析	CPU pipeline/IPC 效率
syscalls	系统调用次数	perf trace	高频 syscall 追踪	I/O/网络/文件系统瓶颈

Step2: 系统调用跟踪

perf trace -a

Step3: 调度/锁分析

perf sched record -a -g sleep 10
perf sched latency

Step4: 热点分析

perf top -a

Step5: 深入分析

perf record -a -g sleep 10
perf report

Step6: 分支思路总结

现象	分析方法	可能原因
syscalls 高	perf trace -a	I/O/网络/文件系统瓶颈
context-switch 高	perf sched record/latency	调度/锁争用
page-fault 高	/proc/softirqs + perf top	内存不足或 NUMA 远程访问
CPI 高但 syscall/ctx/fault 正常	perf top -a	CPU stall、cache miss、NUMA

7️⃣ 网络优化 + 性能诊断闭环流程图

+---------------------+
|     网络收包         |
|  (NIC Hard IRQ)     |
+---------+-----------+
          |
          v
+---------------------+
|  硬中断绑核 / RPS    |
|  irq_affinity / RPS  |
+---------+-----------+
          |
          v
+---------------------+
|   ksoftirqd / SoftIRQ |
|   (网络、调度任务)   |
+---------+-----------+
          |
          v
+---------------------+
|      TCP/UDP Buffer  |
|  rmem/wmem/tcp_*     |
+---------+-----------+
          |
          v
+---------------------+
| 用户态应用 / syscall |
| perf stat/top 分析  |
+---------+-----------+
          |
          v
+---------------------+
| 调度 / 锁分析        |
| perf sched/latency  |
+---------+-----------+
          |
          v
+---------------------+
| 深入热点分析         |
| perf record/report   |
+---------------------+

✅ 补充说明：

用户态不能直接触发硬中断/软中断，内核模块可用于调试、性能验证。
硬中断：立即响应外设 → ISR 执行快速处理 → 可触发软中断。
软中断：硬中断完成后延迟处理 → ksoftirqd 调度 → 可配合 RPS/RFS 分发多核。
优化方向：
- IRQ 绑核：优化硬中断
- RPS/RFS：优化软中断
- TCP/UDP buffer：优化应用数据处理

这份文档已经覆盖：

网络优化基础与脚本
硬/软中断机制、触发流程、触发权限、统计脚本
Perf 性能分析完整流程与指标
问题现象 → 分析工具 → 方法 → 可能原因
原流程图保留
软/硬中断触发背景和流程补充完整

posted on 2025-09-22 13:26 吃草的青蛙阅读(14) 评论(0) 收藏举报

刷新页面返回顶部

小镇做题家

负载排查和分析四

Linux 网络优化与性能分析完全指南（最终完整版）

1️⃣ 中断与软中断基础

1.1 中断（IRQ）概念

1.2 硬中断（Hard IRQ）

背景

触发流程

查看

内核触发示例（模拟硬中断）

1.3 软中断（Soft IRQ）

背景

触发流程

查看

内核触发示例

1.4 硬/软中断关联与触发对比

2️⃣ 网络优化基础

2.1 网卡 Offload

2.2 IRQ 绑核

2.3 RPS / RFS（软中断分发）

2.4 TCP/UDP Buffer

3️⃣ 网络优化脚本

4️⃣ 完全动态软中断统计脚本

5️⃣ 完全动态硬中断统计脚本

6️⃣ Perf 性能分析流程

Step1: 基础统计

Step2: 系统调用跟踪

Step3: 调度/锁分析

Step4: 热点分析

Step5: 深入分析

Step6: 分支思路总结

7️⃣ 网络优化 + 性能诊断闭环流程图

导航

公告