云底座 & 性能优化 90 天技术提升落地清单

每周目标
具体任务
工具 / 知识点
验证标准

第 1 周
掌握性能诊断工具链
perf/ftrace/eBPF 基础（bcc 工具集）、nmon/dstat
用 perf 定位 1 个业务 CPU 高占用根因

第 2 周
吃透内核调度 & 内存机制
CFS 调度器参数、透明大页 /hugepage、NUMA 亲和性
调整调度器参数，使单机负载均衡率提升 5%

第 3 周
搭建业务性能基线
梳理核心业务（如云底座 API、虚拟机启停）的时延 / 吞吐量指标
输出 3 类核心业务的性能基线文档

第 4 周
落地无侵入监控
Prometheus + Grafana + eBPF_exporter
实现内核态 / 用户态指标的实时监控，告警准确率≥90%

每周目标
具体任务
工具 / 知识点
验证标准

第 5 周
深入 K8s 资源调度
K8s 调度扩展（Custom Scheduler）、cgroup v2 资源隔离
实现基于负载的 Pod 动态调度，资源利用率提升 10%

第 6 周
容器运行时优化
containerd 配置调优、镜像分层优化
容器启动时间缩短 15%

第 7 周
虚拟化性能调优
KVM virtio 优化、vCPU 绑定、内存气球技术
虚拟机网络时延降低 20%

第 8 周
混部技术落地
在线 / 离线业务混部、干扰检测与规避
集群资源利用率提升至 60%+，在线业务 SLA 不受影响

每周目标
具体任务
工具 / 知识点
验证标准

第 9 周
异构资源基础学习
GPU/NPU 硬件特性、vGPU 调度原理
完成 1 台 GPU 服务器的 K8s 集群接入

第 10 周
AI 任务性能调优
大模型推理 IO 路径优化、内存池化
大模型推理时延降低 10%

第 11 周
自动化工具开发
用 Python/Shell 编写性能调优脚本（如自动设置大页）
脚本可批量应用于 10 台以上服务器

第 12 周
技术沉淀输出
整理优化案例、撰写技术博客 / 专利初稿
输出 2 篇可对外分享的技术文档

posted @ 2025-12-21 20:20 大江东流水阅读(10) 评论(0) 收藏举报

刷新页面返回顶部

江湖道