ai 学习规划

总路线图（先看全貌）

阶段0（现在 → 2周）

👉 建立 AI 推理工程的“地图”

阶段1（1–2个月）

👉 能跑通推理 + 看懂模型结构

阶段2（2–4个月）

👉 能做推理优化 + 写工程项目

阶段3（3–6个月）

👉 做一个硬核项目（简历杀器）

阶段4（求职期）

👉 定位岗位 + 打包简历

🚀 阶段0：建立知识地图（1–2周）

目标：

不再把 AI 当黑盒
知道推理工程在整个栈的位置

必须理解的 5 个概念

1️⃣ 推理计算图

知道：

Tensor（张量，表示多维数组）
DAG
算子
内存布局

推荐看：

PyTorch 的 FX / graph
ONNX graph

2️⃣ Transformer 推理流程

只需要搞懂：

embedding
attention
MLP
KV cache

不用学训练。

3️⃣ GPU 执行模型

必须懂：

warp
block
memory hierarchy
coalescing
shared memory

4️⃣ 推理引擎结构

理解：

graph optimization
kernel dispatch
memory planning

看看：

TensorRT 架构图
ONNX Runtime 执行流程

5️⃣ 推理性能指标

必须知道：

latency
throughput
memory bandwidth bound
compute bound

✔ 阶段0结束标志：

你能画出 Transformer 推理流程图
并解释 GPU 上怎么执行

🧠 阶段1：跑通推理（1–2个月）

目标：

能从模型 → ONNX → TensorRT → GPU 跑起来
这一步 80% 的转型者没做完。

必做任务1
✔ 用 PyTorch 导出 ONNX

流程：

加载模型 → dummy input → export onnx

跑通：

resnet

bert

小 LLM

必做任务2
✔ 用 ONNX Runtime 跑推理

写一个：

C++ 推理 demo

必须：

不用 Python

用 C++ API

跑 GPU

打印 latency

必做任务3
✔ 用 TensorRT 编译模型

做：

ONNX → TensorRT engine

然后：

写 C++ inference runner

测性能

✔ 阶段1结束标志：

你能在 C++ 里完整跑一个模型推理
并测 latency

这已经超过 70% 求职者。

⚙️ 阶段2：做优化（2–4个月）

目标：

开始具备“AI Infra 工程师味道”

优化方向1（最重要）
🔥 Profiling

学会：

Nsight Systems

Nsight Compute

perf

你要能回答：

瓶颈在 kernel？
在 memory？
在 launch？
在 memcpy？
优化方向2
✔ 内存优化

做：

pinned memory

zero copy

batch buffer

内存池

这一步非常贴合你背景。

优化方向3
✔ 并发优化

实现：

多线程请求队列

batching

async inference

优化方向4
✔ TensorRT 优化

尝试：

FP16

INT8

算子融合

layer fusion

✔ 阶段2结束标志：

你能把模型 latency 降低 20–50%

🧨 阶段3：做一个“简历杀器项目”（3–6个月）

这一步决定你能不能转成功。

项目必须：

C++

CUDA

性能优化

可展示

🎯 推荐项目（最强）
项目A：写一个 LLM 推理引擎（简化版）

功能：

load weights

KV cache

multi-head attention kernel

tokenizer

simple scheduler

你不用写完整模型，

只要：

实现 attention kernel + 推理 pipeline

面试官会直接认定你是 infra 人。

项目B（更工程）
✔ 写一个高性能推理服务

实现：

ONNX/TensorRT backend

动态 batching

request queue

latency stats

memory pool

这非常接近真实 infra。

✔ 阶段3结束标志：

GitHub 上有一个工程级项目
README 写清优化思路 + 性能数据

💼 阶段4：求职定位

你要投的岗位关键词：

AI Infra Engineer
ML Systems Engineer
Inference Engineer
AI Runtime Engineer
GPU Engineer (AI)

不要投：

ML Researcher
Model Scientist
Algorithm Engineer（偏训练）
🪜 最现实的时间预期
时间你会达到什么水平
1个月能跑推理
3个月能优化
6个月能投 infra 岗
9–12个月稳定拿 offer
🧭 给你一句真实判断标准

如果 6 个月后你能做到：

能独立写 C++ 推理 pipeline + 找性能瓶颈

一、8 周学习计划（工程导向）
✅ 第1周：建立推理整体认知

目标：

知道模型推理到底在算什么
能画出 Transformer 推理流程图

学习内容

1️⃣ Transformer 推理流程（重点）

embedding

attention

MLP

KV cache

2️⃣ 推理计算图概念

Tensor

算子

DAG

内存布局

3️⃣ GPU 基本执行模型

warp

block

global/shared memory

本周输出

✔ 手画一张图：

token → embedding → attention → mlp → logits

✔ 写一篇笔记：

Transformer 推理在 GPU 上怎么执行

✅ 第2周：跑通模型推理（Python阶段）

目标：

模型 → ONNX → GPU 推理跑通

必做任务

1️⃣ 用 PyTorch 加载模型

任选一个：

resnet18

bert

tiny LLM

2️⃣ 导出 ONNX

torch.onnx.export(...)

3️⃣ 用 ONNX Runtime 跑 GPU 推理

本周输出

✔ ONNX 文件
✔ 推理脚本
✔ latency 测试

✅ 第3周：进入 C++ 推理

目标：

必须摆脱 Python

必做任务

1️⃣ 写 C++ ONNX Runtime 推理程序

要求：

load onnx

cuda provider

预分配 buffer

测 latency

2️⃣ 写 benchmark：

单次推理 latency
batch=1 vs batch=8
本周输出

✔ C++ 推理 demo（GitHub）
✔ latency 报告

✅ 第4周：TensorRT 编译 + C++ Runner

目标：

会用工业推理引擎

必做任务

1️⃣ ONNX → TensorRT engine

2️⃣ 写 C++ runner：

load engine

allocate device buffer

enqueue inference

3️⃣ 对比：

ONNX Runtime vs TensorRT latency
本周输出

✔ TensorRT C++ demo
✔ 性能对比图

✅ 第5周：Profiling（最关键）

目标：

学会找瓶颈（infra工程师核心能力）

必做任务

学会用：

Nsight Systems

Nsight Compute

分析：

GPU 利用率
kernel 时间
memcpy 时间
launch overhead
本周输出

✔ profiling 截图
✔ 瓶颈分析报告

✅ 第6周：推理优化（第一波）

目标：

让 latency 真降下来

必做优化

1️⃣ FP16 推理
2️⃣ batch 优化
3️⃣ pinned memory
4️⃣ async pipeline

本周输出

✔ 优化前后对比表

✅ 第7周：服务化推理（工程味）

目标：

从 demo → infra 雏形

必做任务

实现：

请求队列
worker 线程
batching
统计 latency
本周输出

✔ 简易推理服务（C++）

✅ 第8周：项目启动（关键）

目标：

开始你的“简历杀器”

项目选一个：
A️⃣ LLM 推理引擎（推荐）

实现：

tokenizer

KV cache

attention kernel（可先 naive）

推理 pipeline

B️⃣ 高性能推理服务

实现：

ONNX/TensorRT backend

batching scheduler

memory pool

metrics

✔ 第8周目标：

项目仓库初始化 + README 写清目标

📚 二、必看资料清单（最有效）

只留工程最有价值的。

🔥 核心资料1（必须）
NVIDIA CUDA 编程指南

这是你必须熟的。

重点看：

memory hierarchy

occupancy

shared memory

coalescing

🔥 核心资料2
TensorRT 官方文档

重点看：

engine build

optimization profiles

INT8 calibration

plugin

🔥 核心资料3
ONNX Runtime Execution Provider 文档

只看：

CUDA provider

memory management

IO binding

🔥 核心资料4（非常重要）
Transformer 推理结构

推荐搜：

Annotated Transformer
LLM inference pipeline blog
KV cache explain

重点：

attention FLOPs

memory access pattern

🔥 核心资料5（系统层）
GPU Profiling 文档

看：

Nsight Systems tutorial

Nsight Compute tutorial

目标：

能解释 GPU 时间去哪了

🧰 三、项目技术栈模板（直接照着搭）

我给你一个现实可投简历的架构。

🎯 项目目标

高性能 C++ AI 推理框架（单机）

🧱 技术栈
✔ 推理后端

任选：

ONNX Runtime (CUDA)
TensorRT
✔ 核心语言
C++17
CUDA
✔ 并发模型
std::thread / thread pool
lock-free queue

可选：

folly / tbb
✔ 内存管理

必须实现：

device buffer pool
pinned host buffer
arena allocator
✔ 推理调度

实现：

request queue
dynamic batching
timeout flush
✔ 性能工具

必须支持：

profiling hooks
latency histogram
GPU timer
✔ 项目结构（推荐）
/engine
/scheduler
/runtime
/memory
/backend
/tools
/examples
✔ README 必须写清
架构图
推理流程
优化点
性能数据
profiling截图
🧭 给你一个现实目标

如果 3 个月后你能做到：

✔ C++ 推理 pipeline
✔ TensorRT 编译
✔ profiling 分析
✔ 一个工程级项目

你已经是：

AI 推理工程师可投水平

不是学习阶段，是可面试阶段。

posted @ 2026-02-25 16:34 卑以自牧lq 阅读(77) 评论(0) 收藏举报

刷新页面返回顶部

ai 学习规划

总路线图（先看全貌）

阶段0（现在 → 2周）

阶段1（1–2个月）

阶段2（2–4个月）

阶段3（3–6个月）

阶段4（求职期）

🚀 阶段0：建立知识地图（1–2周）

目标：

必须理解的 5 个概念

🧠 阶段1：跑通推理（1–2个月）

公告