ai 学习规划

总路线图(先看全貌)

阶段0(现在 → 2周)

👉 建立 AI 推理工程的“地图”

阶段1(1–2个月)

👉 能跑通推理 + 看懂模型结构

阶段2(2–4个月)

👉 能做推理优化 + 写工程项目

阶段3(3–6个月)

👉 做一个 硬核项目(简历杀器)

阶段4(求职期)

👉 定位岗位 + 打包简历

🚀 阶段0:建立知识地图(1–2周)

目标:

不再把 AI 当黑盒
知道推理工程在整个栈的位置

必须理解的 5 个概念

1️⃣ 推理计算图

知道:

Tensor(张量,表示多维数组)
DAG
算子
内存布局

推荐看:

  • PyTorch 的 FX / graph
  • ONNX graph

2️⃣ Transformer 推理流程

只需要搞懂:

embedding
attention
MLP
KV cache

不用学训练。

3️⃣ GPU 执行模型

必须懂:

warp
block
memory hierarchy
coalescing
shared memory

4️⃣ 推理引擎结构

理解:

graph optimization
kernel dispatch
memory planning

看看:

TensorRT 架构图
ONNX Runtime 执行流程

5️⃣ 推理性能指标

必须知道:

latency
throughput
memory bandwidth bound
compute bound

✔ 阶段0结束标志:

你能画出 Transformer 推理流程图
并解释 GPU 上怎么执行

🧠 阶段1:跑通推理(1–2个月)

目标:

能从模型 → ONNX → TensorRT → GPU 跑起来
这一步 80% 的转型者没做完。

必做任务1
✔ 用 PyTorch 导出 ONNX

流程:

加载模型 → dummy input → export onnx

跑通:

resnet

bert

小 LLM

必做任务2
✔ 用 ONNX Runtime 跑推理

写一个:

C++ 推理 demo

必须:

不用 Python

用 C++ API

跑 GPU

打印 latency

必做任务3
✔ 用 TensorRT 编译模型

做:

ONNX → TensorRT engine

然后:

写 C++ inference runner

测性能

✔ 阶段1结束标志:

你能在 C++ 里完整跑一个模型推理
并测 latency

这已经超过 70% 求职者。

⚙️ 阶段2:做优化(2–4个月)

目标:

开始具备“AI Infra 工程师味道”

优化方向1(最重要)
🔥 Profiling

学会:

Nsight Systems

Nsight Compute

perf

你要能回答:

瓶颈在 kernel?
在 memory?
在 launch?
在 memcpy?
优化方向2
✔ 内存优化

做:

pinned memory

zero copy

batch buffer

内存池

这一步非常贴合你背景。

优化方向3
✔ 并发优化

实现:

多线程请求队列

batching

async inference

优化方向4
✔ TensorRT 优化

尝试:

FP16

INT8

算子融合

layer fusion

✔ 阶段2结束标志:

你能把模型 latency 降低 20–50%

🧨 阶段3:做一个“简历杀器项目”(3–6个月)

这一步决定你能不能转成功。

项目必须:

C++

CUDA

性能优化

可展示

🎯 推荐项目(最强)
项目A:写一个 LLM 推理引擎(简化版)

功能:

load weights

KV cache

multi-head attention kernel

tokenizer

simple scheduler

你不用写完整模型,

只要:

实现 attention kernel + 推理 pipeline

面试官会直接认定你是 infra 人。

项目B(更工程)
✔ 写一个高性能推理服务

实现:

ONNX/TensorRT backend

动态 batching

request queue

latency stats

memory pool

这非常接近真实 infra。

✔ 阶段3结束标志:

GitHub 上有一个工程级项目
README 写清优化思路 + 性能数据

💼 阶段4:求职定位

你要投的岗位关键词:

AI Infra Engineer
ML Systems Engineer
Inference Engineer
AI Runtime Engineer
GPU Engineer (AI)

不要投:

ML Researcher
Model Scientist
Algorithm Engineer(偏训练)
🪜 最现实的时间预期
时间 你会达到什么水平
1个月 能跑推理
3个月 能优化
6个月 能投 infra 岗
9–12个月 稳定拿 offer
🧭 给你一句真实判断标准

如果 6 个月后你能做到:

能独立写 C++ 推理 pipeline + 找性能瓶颈

一、8 周学习计划(工程导向)
✅ 第1周:建立推理整体认知

目标:

知道模型推理到底在算什么
能画出 Transformer 推理流程图

学习内容

1️⃣ Transformer 推理流程(重点)

embedding

attention

MLP

KV cache

2️⃣ 推理计算图概念

Tensor

算子

DAG

内存布局

3️⃣ GPU 基本执行模型

warp

block

global/shared memory

本周输出

✔ 手画一张图:

token → embedding → attention → mlp → logits

✔ 写一篇笔记:

Transformer 推理在 GPU 上怎么执行

✅ 第2周:跑通模型推理(Python阶段)

目标:

模型 → ONNX → GPU 推理 跑通

必做任务

1️⃣ 用 PyTorch 加载模型

任选一个:

resnet18

bert

tiny LLM

2️⃣ 导出 ONNX

torch.onnx.export(...)

3️⃣ 用 ONNX Runtime 跑 GPU 推理

本周输出

✔ ONNX 文件
✔ 推理脚本
✔ latency 测试

✅ 第3周:进入 C++ 推理

目标:

必须摆脱 Python

必做任务

1️⃣ 写 C++ ONNX Runtime 推理程序

要求:

load onnx

cuda provider

预分配 buffer

测 latency

2️⃣ 写 benchmark:

单次推理 latency
batch=1 vs batch=8
本周输出

✔ C++ 推理 demo(GitHub)
✔ latency 报告

✅ 第4周:TensorRT 编译 + C++ Runner

目标:

会用工业推理引擎

必做任务

1️⃣ ONNX → TensorRT engine

2️⃣ 写 C++ runner:

load engine

allocate device buffer

enqueue inference

3️⃣ 对比:

ONNX Runtime vs TensorRT latency
本周输出

✔ TensorRT C++ demo
✔ 性能对比图

✅ 第5周:Profiling(最关键)

目标:

学会找瓶颈(infra工程师核心能力)

必做任务

学会用:

Nsight Systems

Nsight Compute

分析:

GPU 利用率
kernel 时间
memcpy 时间
launch overhead
本周输出

✔ profiling 截图
✔ 瓶颈分析报告

✅ 第6周:推理优化(第一波)

目标:

让 latency 真降下来

必做优化

1️⃣ FP16 推理
2️⃣ batch 优化
3️⃣ pinned memory
4️⃣ async pipeline

本周输出

✔ 优化前后对比表

✅ 第7周:服务化推理(工程味)

目标:

从 demo → infra 雏形

必做任务

实现:

请求队列
worker 线程
batching
统计 latency
本周输出

✔ 简易推理服务(C++)

✅ 第8周:项目启动(关键)

目标:

开始你的“简历杀器”

项目选一个:
A️⃣ LLM 推理引擎(推荐)

实现:

tokenizer

KV cache

attention kernel(可先 naive)

推理 pipeline

B️⃣ 高性能推理服务

实现:

ONNX/TensorRT backend

batching scheduler

memory pool

metrics

✔ 第8周目标:

项目仓库初始化 + README 写清目标

📚 二、必看资料清单(最有效)

只留工程最有价值的。

🔥 核心资料1(必须)
NVIDIA CUDA 编程指南

这是你必须熟的。

重点看:

memory hierarchy

occupancy

shared memory

coalescing

🔥 核心资料2
TensorRT 官方文档

重点看:

engine build

optimization profiles

INT8 calibration

plugin

🔥 核心资料3
ONNX Runtime Execution Provider 文档

只看:

CUDA provider

memory management

IO binding

🔥 核心资料4(非常重要)
Transformer 推理结构

推荐搜:

Annotated Transformer
LLM inference pipeline blog
KV cache explain

重点:

attention FLOPs

memory access pattern

🔥 核心资料5(系统层)
GPU Profiling 文档

看:

Nsight Systems tutorial

Nsight Compute tutorial

目标:

能解释 GPU 时间去哪了

🧰 三、项目技术栈模板(直接照着搭)

我给你一个现实可投简历的架构。

🎯 项目目标

高性能 C++ AI 推理框架(单机)

🧱 技术栈
✔ 推理后端

任选:

ONNX Runtime (CUDA)
TensorRT
✔ 核心语言
C++17
CUDA
✔ 并发模型
std::thread / thread pool
lock-free queue

可选:

folly / tbb
✔ 内存管理

必须实现:

device buffer pool
pinned host buffer
arena allocator
✔ 推理调度

实现:

request queue
dynamic batching
timeout flush
✔ 性能工具

必须支持:

profiling hooks
latency histogram
GPU timer
✔ 项目结构(推荐)
/engine
/scheduler
/runtime
/memory
/backend
/tools
/examples
✔ README 必须写清
架构图
推理流程
优化点
性能数据
profiling截图
🧭 给你一个现实目标

如果 3 个月后你能做到:

✔ C++ 推理 pipeline
✔ TensorRT 编译
✔ profiling 分析
✔ 一个工程级项目

你已经是:

AI 推理工程师可投水平

不是学习阶段,是可面试阶段。

posted @ 2026-02-25 16:34  卑以自牧lq  阅读(5)  评论(0)    收藏  举报