ai 学习规划
总路线图(先看全貌)
阶段0(现在 → 2周)
👉 建立 AI 推理工程的“地图”
阶段1(1–2个月)
👉 能跑通推理 + 看懂模型结构
阶段2(2–4个月)
👉 能做推理优化 + 写工程项目
阶段3(3–6个月)
👉 做一个 硬核项目(简历杀器)
阶段4(求职期)
👉 定位岗位 + 打包简历
🚀 阶段0:建立知识地图(1–2周)
目标:
不再把 AI 当黑盒
知道推理工程在整个栈的位置
必须理解的 5 个概念
1️⃣ 推理计算图
知道:
Tensor(张量,表示多维数组)
DAG
算子
内存布局
推荐看:
- PyTorch 的 FX / graph
- ONNX graph
2️⃣ Transformer 推理流程
只需要搞懂:
embedding
attention
MLP
KV cache
不用学训练。
3️⃣ GPU 执行模型
必须懂:
warp
block
memory hierarchy
coalescing
shared memory
4️⃣ 推理引擎结构
理解:
graph optimization
kernel dispatch
memory planning
看看:
TensorRT 架构图
ONNX Runtime 执行流程
5️⃣ 推理性能指标
必须知道:
latency
throughput
memory bandwidth bound
compute bound
✔ 阶段0结束标志:
你能画出 Transformer 推理流程图
并解释 GPU 上怎么执行
🧠 阶段1:跑通推理(1–2个月)
目标:
能从模型 → ONNX → TensorRT → GPU 跑起来
这一步 80% 的转型者没做完。
必做任务1
✔ 用 PyTorch 导出 ONNX
流程:
加载模型 → dummy input → export onnx
跑通:
resnet
bert
小 LLM
必做任务2
✔ 用 ONNX Runtime 跑推理
写一个:
C++ 推理 demo
必须:
不用 Python
用 C++ API
跑 GPU
打印 latency
必做任务3
✔ 用 TensorRT 编译模型
做:
ONNX → TensorRT engine
然后:
写 C++ inference runner
测性能
✔ 阶段1结束标志:
你能在 C++ 里完整跑一个模型推理
并测 latency
这已经超过 70% 求职者。
⚙️ 阶段2:做优化(2–4个月)
目标:
开始具备“AI Infra 工程师味道”
优化方向1(最重要)
🔥 Profiling
学会:
Nsight Systems
Nsight Compute
perf
你要能回答:
瓶颈在 kernel?
在 memory?
在 launch?
在 memcpy?
优化方向2
✔ 内存优化
做:
pinned memory
zero copy
batch buffer
内存池
这一步非常贴合你背景。
优化方向3
✔ 并发优化
实现:
多线程请求队列
batching
async inference
优化方向4
✔ TensorRT 优化
尝试:
FP16
INT8
算子融合
layer fusion
✔ 阶段2结束标志:
你能把模型 latency 降低 20–50%
🧨 阶段3:做一个“简历杀器项目”(3–6个月)
这一步决定你能不能转成功。
项目必须:
C++
CUDA
性能优化
可展示
🎯 推荐项目(最强)
项目A:写一个 LLM 推理引擎(简化版)
功能:
load weights
KV cache
multi-head attention kernel
tokenizer
simple scheduler
你不用写完整模型,
只要:
实现 attention kernel + 推理 pipeline
面试官会直接认定你是 infra 人。
项目B(更工程)
✔ 写一个高性能推理服务
实现:
ONNX/TensorRT backend
动态 batching
request queue
latency stats
memory pool
这非常接近真实 infra。
✔ 阶段3结束标志:
GitHub 上有一个工程级项目
README 写清优化思路 + 性能数据
💼 阶段4:求职定位
你要投的岗位关键词:
AI Infra Engineer
ML Systems Engineer
Inference Engineer
AI Runtime Engineer
GPU Engineer (AI)
不要投:
ML Researcher
Model Scientist
Algorithm Engineer(偏训练)
🪜 最现实的时间预期
时间 你会达到什么水平
1个月 能跑推理
3个月 能优化
6个月 能投 infra 岗
9–12个月 稳定拿 offer
🧭 给你一句真实判断标准
如果 6 个月后你能做到:
能独立写 C++ 推理 pipeline + 找性能瓶颈
一、8 周学习计划(工程导向)
✅ 第1周:建立推理整体认知
目标:
知道模型推理到底在算什么
能画出 Transformer 推理流程图
学习内容
1️⃣ Transformer 推理流程(重点)
embedding
attention
MLP
KV cache
2️⃣ 推理计算图概念
Tensor
算子
DAG
内存布局
3️⃣ GPU 基本执行模型
warp
block
global/shared memory
本周输出
✔ 手画一张图:
token → embedding → attention → mlp → logits
✔ 写一篇笔记:
Transformer 推理在 GPU 上怎么执行
✅ 第2周:跑通模型推理(Python阶段)
目标:
模型 → ONNX → GPU 推理 跑通
必做任务
1️⃣ 用 PyTorch 加载模型
任选一个:
resnet18
bert
tiny LLM
2️⃣ 导出 ONNX
torch.onnx.export(...)
3️⃣ 用 ONNX Runtime 跑 GPU 推理
本周输出
✔ ONNX 文件
✔ 推理脚本
✔ latency 测试
✅ 第3周:进入 C++ 推理
目标:
必须摆脱 Python
必做任务
1️⃣ 写 C++ ONNX Runtime 推理程序
要求:
load onnx
cuda provider
预分配 buffer
测 latency
2️⃣ 写 benchmark:
单次推理 latency
batch=1 vs batch=8
本周输出
✔ C++ 推理 demo(GitHub)
✔ latency 报告
✅ 第4周:TensorRT 编译 + C++ Runner
目标:
会用工业推理引擎
必做任务
1️⃣ ONNX → TensorRT engine
2️⃣ 写 C++ runner:
load engine
allocate device buffer
enqueue inference
3️⃣ 对比:
ONNX Runtime vs TensorRT latency
本周输出
✔ TensorRT C++ demo
✔ 性能对比图
✅ 第5周:Profiling(最关键)
目标:
学会找瓶颈(infra工程师核心能力)
必做任务
学会用:
Nsight Systems
Nsight Compute
分析:
GPU 利用率
kernel 时间
memcpy 时间
launch overhead
本周输出
✔ profiling 截图
✔ 瓶颈分析报告
✅ 第6周:推理优化(第一波)
目标:
让 latency 真降下来
必做优化
1️⃣ FP16 推理
2️⃣ batch 优化
3️⃣ pinned memory
4️⃣ async pipeline
本周输出
✔ 优化前后对比表
✅ 第7周:服务化推理(工程味)
目标:
从 demo → infra 雏形
必做任务
实现:
请求队列
worker 线程
batching
统计 latency
本周输出
✔ 简易推理服务(C++)
✅ 第8周:项目启动(关键)
目标:
开始你的“简历杀器”
项目选一个:
A️⃣ LLM 推理引擎(推荐)
实现:
tokenizer
KV cache
attention kernel(可先 naive)
推理 pipeline
B️⃣ 高性能推理服务
实现:
ONNX/TensorRT backend
batching scheduler
memory pool
metrics
✔ 第8周目标:
项目仓库初始化 + README 写清目标
📚 二、必看资料清单(最有效)
只留工程最有价值的。
🔥 核心资料1(必须)
NVIDIA CUDA 编程指南
这是你必须熟的。
重点看:
memory hierarchy
occupancy
shared memory
coalescing
🔥 核心资料2
TensorRT 官方文档
重点看:
engine build
optimization profiles
INT8 calibration
plugin
🔥 核心资料3
ONNX Runtime Execution Provider 文档
只看:
CUDA provider
memory management
IO binding
🔥 核心资料4(非常重要)
Transformer 推理结构
推荐搜:
Annotated Transformer
LLM inference pipeline blog
KV cache explain
重点:
attention FLOPs
memory access pattern
🔥 核心资料5(系统层)
GPU Profiling 文档
看:
Nsight Systems tutorial
Nsight Compute tutorial
目标:
能解释 GPU 时间去哪了
🧰 三、项目技术栈模板(直接照着搭)
我给你一个现实可投简历的架构。
🎯 项目目标
高性能 C++ AI 推理框架(单机)
🧱 技术栈
✔ 推理后端
任选:
ONNX Runtime (CUDA)
TensorRT
✔ 核心语言
C++17
CUDA
✔ 并发模型
std::thread / thread pool
lock-free queue
可选:
folly / tbb
✔ 内存管理
必须实现:
device buffer pool
pinned host buffer
arena allocator
✔ 推理调度
实现:
request queue
dynamic batching
timeout flush
✔ 性能工具
必须支持:
profiling hooks
latency histogram
GPU timer
✔ 项目结构(推荐)
/engine
/scheduler
/runtime
/memory
/backend
/tools
/examples
✔ README 必须写清
架构图
推理流程
优化点
性能数据
profiling截图
🧭 给你一个现实目标
如果 3 个月后你能做到:
✔ C++ 推理 pipeline
✔ TensorRT 编译
✔ profiling 分析
✔ 一个工程级项目
你已经是:
AI 推理工程师可投水平
不是学习阶段,是可面试阶段。
浙公网安备 33010602011771号