江湖道

庙堂,江湖,学术!

返回顶部

云底座 & 性能优化 90 天技术提升落地清单

核心目标:夯实内核性能调优能力 + 深化云原生资源管理 + 搭建可观测体系,形成技术闭环

第 1-4 周:工具链精通 & 性能基线搭建

每周目标
具体任务
工具 / 知识点
验证标准

第 1 周
掌握性能诊断工具链
perf/ftrace/eBPF 基础(bcc 工具集)、nmon/dstat
用 perf 定位 1 个业务 CPU 高占用根因

第 2 周
吃透内核调度 & 内存机制
CFS 调度器参数、透明大页 /hugepage、NUMA 亲和性
调整调度器参数,使单机负载均衡率提升 5%

第 3 周
搭建业务性能基线
梳理核心业务(如云底座 API、虚拟机启停)的时延 / 吞吐量指标
输出 3 类核心业务的性能基线文档

第 4 周
落地无侵入监控
Prometheus + Grafana + eBPF_exporter
实现内核态 / 用户态指标的实时监控,告警准确率≥90%

第 5-8 周:云原生资源管理 & 性能优化实践

每周目标
具体任务
工具 / 知识点
验证标准

第 5 周
深入 K8s 资源调度
K8s 调度扩展(Custom Scheduler)、cgroup v2 资源隔离
实现基于负载的 Pod 动态调度,资源利用率提升 10%

第 6 周
容器运行时优化
containerd 配置调优、镜像分层优化
容器启动时间缩短 15%

第 7 周
虚拟化性能调优
KVM virtio 优化、vCPU 绑定、内存气球技术
虚拟机网络时延降低 20%

第 8 周
混部技术落地
在线 / 离线业务混部、干扰检测与规避
集群资源利用率提升至 60%+,在线业务 SLA 不受影响

第 9-12 周:异构算力适配 & 技术沉淀

每周目标
具体任务
工具 / 知识点
验证标准

第 9 周
异构资源基础学习
GPU/NPU 硬件特性、vGPU 调度原理
完成 1 台 GPU 服务器的 K8s 集群接入

第 10 周
AI 任务性能调优
大模型推理 IO 路径优化、内存池化
大模型推理时延降低 10%

第 11 周
自动化工具开发
用 Python/Shell 编写性能调优脚本(如自动设置大页)
脚本可批量应用于 10 台以上服务器

第 12 周
技术沉淀输出
整理优化案例、撰写技术博客 / 专利初稿
输出 2 篇可对外分享的技术文档

避坑提醒
  1. 所有优化操作先在测试环境验证,再灰度发布到生产
  2. 性能优化以业务 SLA 为核心,避免为了指标提升牺牲稳定性
  3. 每周预留 1 天弹性时间,应对工作突发需求
posted @ 2025-12-21 20:20  大江东流水  阅读(2)  评论(0)    收藏  举报