Computer Vision · 顶级学习地图
MIT · Stanford · CMU · Oxford · DeepMind Level
系统性构建世界级 CV 工程师知识体系
📊 学习资源概览
| 类别 |
数量 |
说明 |
| 📚 必读书籍 |
30本 |
从数学基础到深度学习前沿 |
| 🎓 顶级课程 |
10门 |
全球顶尖高校公开课 |
| 🛠️ 必做项目 |
20个 |
从经典算法到前沿系统 |
| 📄 精选论文 |
60+篇 |
沿着历史脉络阅读奠基之作 |
📚 30本必读书单
从数学基础、传统CV到深度学习前沿,三个阶段系统构建知识体系
Phase I · 基础奠定 (Books 01–10)
| 编号 |
书名 |
作者 |
标签 |
| 001 |
Computer Vision: Algorithms and Applications |
Richard Szeliski (2nd Ed. 2022) |
圣经、免费PDF |
| 002 |
Multiple View Geometry in Computer Vision |
Hartley & Zisserman (2003) |
几何基础、数学密集 |
| 003 |
Programming Computer Vision with Python |
Jan Erik Solem (2012) |
实践向、入门 |
| 004 |
Digital Image Processing |
Gonzalez & Woods (4th Ed. 2018) |
图像处理、经典教材 |
| 005 |
Mathematics for Machine Learning |
Deisenroth, Faisal & Ong (2020) |
数学、免费PDF |
| 006 |
An Introduction to Statistical Learning |
James, Witten, Hastie & Tibshirani (2ed) |
统计学习、免费PDF |
| 007 |
Probabilistic Robotics |
Thrun, Burgard & Fox (2005) |
SLAM、概率推断 |
| 008 |
Pattern Recognition and Machine Learning |
Christopher Bishop (2006) |
PRML、数学严谨 |
| 009 |
Computer Vision: A Modern Approach |
Forsyth & Ponce (2nd Ed.) |
传统CV、经典 |
| 010 |
Linear Algebra Done Right |
Sheldon Axler (3rd Ed.) |
线代、理论严谨 |
Phase II · 深度学习核心 (Books 11–22)
| 编号 |
书名 |
作者 |
标签 |
| 011 |
Deep Learning |
Goodfellow, Bengio & Courville (2016) |
DL圣经、免费在线 |
| 012 |
Dive into Deep Learning (d2l.ai) |
Zhang, Lipton, Li & Smola (2023) |
交互式、代码驱动 |
| 013 |
Deep Learning for Vision Systems |
Mohamed Elgendy (2020) |
CV实践、工程向 |
| 014 |
Neural Networks and Deep Learning |
Michael Nielsen (在线书) |
直觉构建、免费 |
| 015 |
Hands-On Machine Learning (3rd Ed.) |
Aurélien Géron (2022) |
工程实践、Sklearn+TF |
| 016 |
Programming PyTorch for Deep Learning |
Ian Pointer (2019) |
PyTorch、实战 |
| 017 |
Object Detection in 20 Years: A Survey |
Wu et al. |
目标检测、综述 |
| 018 |
Deep Learning for Medical Image Analysis |
Zhou, Greenspan & Shen (2017) |
医学影像、应用向 |
| 019 |
Generative Deep Learning |
David Foster (2nd Ed. 2023) |
生成模型、GAN/VAE/Diffusion |
| 020 |
Computer Vision: Models, Learning, and Inference |
Simon Prince (2012) |
贝叶斯CV、免费PDF |
| 021 |
The Elements of Statistical Learning |
Hastie, Tibshirani & Friedman (2009) |
ESL、进阶 |
| 022 |
Bayesian Reasoning and Machine Learning |
David Barber (2012) |
贝叶斯、免费PDF |
Phase III · 前沿进阶 (Books 23–30)
| 编号 |
书名 |
作者 |
标签 |
| 023 |
Transformers for Machine Learning |
Tay, Dehghani et al. (2022) |
Transformer、ViT |
| 024 |
3D Gaussian Splatting · 技术文档合集 |
Kerbl et al. (2023) + 社区 |
3DGS、NeRF |
| 025 |
Reinforcement Learning from Human Feedback |
综合资料 · OpenAI/Anthropic |
RLHF、多模态 |
| 026 |
Probabilistic Graphical Models |
Koller & Friedman (2009) |
PGM、深度理论 |
| 027 |
Diffusion Models: Theory and Applications |
Song, Ho et al. (2022-24) |
Diffusion、SOTA生成 |
| 028 |
Robot Perception: Fundamental Algorithms |
Stachniss, Leonard & Kaess |
机器人感知、SLAM |
| 029 |
Deep Learning on Graphs |
Yao Ma & Jiliang Tang (2021) |
GNN、图神经网络 |
| 030 |
Foundation Models for Vision (Survey) |
Bommasani et al. + 综述集 (2023) |
基础模型、SAM/CLIP |
🎓 10门顶级课程
全球顶尖高校与研究机构公开课,涵盖传统算法、深度学习与前沿研究
01. MIT 6.869 / 6.S192 · Advances in Computer Vision
- 授课:William Freeman · Antonio Torralba
- 亮点:
- 覆盖底层图像形成到高层语义理解全链路
- 深度学习与贝叶斯视觉方法并重
- 历年作业含完整 PyTorch 实现框架
- 标签:MIT OCW、研究生级
02. Stanford CS231n · Deep Learning for Computer Vision
- 授课:Li Fei-Fei · Justin Johnson · Serena Yeung
- 亮点:
- CNN/RNN/Transformer CV应用全面讲解
- 5个精心设计的编程作业,代码质量极高
- ImageNet竞赛历史与现代架构演进
- 标签:YouTube免费、必修
03. Oxford VGG · Visual Geometry & Deep Learning
- 授课:Andrea Vedaldi · Andrew Zisserman
- 亮点:
- VGG团队亲授,深度学习与几何视觉结合
- 含3D重建、光流、目标检测深度内容
- 配套VLFeat工具箱实验
- 标签:YouTube免费、几何深度
04. DeepMind / UCL · Advanced Deep Learning & RL
- 授课:Hado van Hasselt · David Silver
- 亮点:
- DeepMind研究员亲授,研究前沿视角
- 涵盖视觉与强化学习交叉方向
- 含AlphaGo/AlphaStar视觉感知模块
- 标签:YouTube免费、前沿
05. UC Berkeley CS182/282A · Deep Neural Networks: Design, Efficiency, Safety
- 授课:Sergey Levine · Anant Sahai
- 亮点:
- 深度网络设计原则与效率优化
- 覆盖大规模视觉模型部署挑战
- 含对抗鲁棒性与安全CV专题
- 标签:YouTube、安全AI
06. fast.ai · Practical Deep Learning for Coders
- 授课:Jeremy Howard · Rachel Thomas
- 亮点:
- Top-down方法论,快速构建SOTA模型
- fastai库深度使用,工程效率极高
- 竞赛导向,Kaggle实战思维培养
- 标签:fast.ai免费、工程首选
07. CMU 16-824 · Visual Learning and Recognition
- 授课:Deva Ramanan · Abhinav Gupta
- 亮点:
- CMU机器人研究院CV课,含具身智能
- 视觉识别与语言理解交叉方向
- 研究方法论培养,文献阅读训练
- 标签:研究导向、顶级
08. Toronto Hinton Lab · Neural Networks for Machine Learning
- 授课:Geoffrey Hinton (Coursera经典版)
- 亮点:
- 深度学习奠基人亲讲,历史价值极高
- 反向传播、CNN、RNN理论深度剖析
- Capsule Networks等前瞻性思想
- 标签:Coursera、历史必读
09. MIT 6.S191 · Introduction to Deep Learning
- 授课:Alexander Amini · Ava Soleimany
- 亮点:
- MIT官方DL入门,每年更新最新内容
- 含扩散模型、视觉语言模型专讲
- Lab含TensorFlow/JAX完整实验
- 标签:每年更新、YouTube
10. Stanford CS348I · Computer Graphics in the Era of AI
- 授课:Gordon Wetzstein
- 亮点:
- NeRF · 3DGS · 神经渲染前沿
- CV与图形学深度融合方向
- 含Diffusion+3D生成最新进展
- 标签:前沿神课、NeRF/3DGS
🛠️ 20个必做项目
从经典算法复现到前沿系统构建,项目导向学习是区分工程师的关键
传统CV基础
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 01 |
从零实现 SIFT 特征提取器 |
⭐⭐ |
不依赖OpenCV,从高斯差分金字塔到关键点描述符完整实现,深入理解尺度不变性 |
Python, NumPy, Matplotlib |
| 02 |
全景图拼接系统 |
⭐⭐ |
实现RANSAC单应矩阵估计、特征匹配与图像融合,输出质量对标商业软件 |
OpenCV, RANSAC, Homography |
深度学习核心
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 03 |
从零实现 CNN + CIFAR-10 分类 |
⭐⭐⭐ |
手写前向传播、反向传播、BatchNorm、Dropout,达到90%+准确率,深刻理解CNN原理 |
NumPy, 纯手写, 梯度检验 |
| 04 |
目标检测:YOLOv8 完整复现 |
⭐⭐⭐ |
从数据集标注到COCO评测,含anchor-free设计、损失函数调优、TensorRT部署 |
PyTorch, COCO, TensorRT |
| 05 |
语义分割:SAM 微调 + 自定义域 |
⭐⭐⭐ |
在医学或卫星图像上微调Segment Anything,实现领域自适应,评估mIoU |
SAM, LoRA, mIoU |
三维视觉
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 06 |
稠密三维重建:COLMAP Pipeline |
⭐⭐⭐⭐ |
从多视角照片到稠密点云+网格,完整SfM+MVS流程,输出可3D打印模型 |
COLMAP, OpenMVS, Open3D |
| 07 |
NeRF 场景重建与新视角合成 |
⭐⭐⭐⭐ |
基于instant-ngp或nerfstudio实现自定义场景NeRF,含训练优化与实时渲染 |
instant-ngp, nerfstudio, CUDA |
目标检测与识别
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 08 |
人脸识别系统:ArcFace 完整实现 |
⭐⭐⭐⭐ |
包含人脸检测、对齐、特征提取、metric learning训练,1:N识别精度评测 |
ArcFace, InsightFace, ONNX |
| 09 |
视频目标跟踪:DeepSORT系统 |
⭐⭐⭐ |
实现多目标跟踪全流程,Kalman滤波+匈牙利算法+外观特征,MOT17评测 |
DeepSORT, Kalman, ByteTrack |
生成模型
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 10 |
图像生成:Stable Diffusion 微调 |
⭐⭐⭐⭐ |
DreamBooth/LoRA微调个人风格模型,含CFG引导、ControlNet条件控制 |
Diffusers, LoRA, ControlNet |
医学影像
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 11 |
医学图像分割:肺结节检测 |
⭐⭐⭐ |
LUNA16数据集,U-Net/3D CNN,含假阳性抑制,对标LUNA竞赛FROC指标 |
U-Net, LUNA16, SimpleITK |
多模态
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 12 |
视觉问答系统:CLIP + LLM |
⭐⭐⭐ |
基于CLIP视觉编码器+LLaMA构建多模态VQA,VQAv2基准评测 |
CLIP, LLaMA, VQAv2 |
自动驾驶
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 13 |
自动驾驶感知栈:BEV鸟瞰图检测 |
⭐⭐⭐⭐⭐ |
nuScenes数据集,BEVFusion多模态融合,相机+LiDAR 3D目标检测 |
BEVFusion, nuScenes, MMDet3D |
| 17 |
端到端自动驾驶:UniAD 复现 |
⭐⭐⭐⭐⭐ |
复现CVPR2023最佳论文UniAD,统一感知预测规划框架,nuScenes完整评测 |
UniAD, Transformer, nuScenes |
SLAM
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 14 |
视觉SLAM系统:ORB-SLAM3 改造 |
⭐⭐⭐⭐ |
在TUM数据集上运行ORB-SLAM3,添加深度学习回环检测,评估ATE/RPE |
ORB-SLAM3, ROS2, TUM |
神经渲染
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 15 |
3D Gaussian Splatting 自定义场景 |
⭐⭐⭐⭐ |
从手机视频重建室内/室外场景,3DGS训练+实时WebGL渲染器 |
3DGS, CUDA, WebGL |
图像增强
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 16 |
图像超分辨率:Real-ESRGAN 部署 |
⭐⭐⭐ |
Real-ESRGAN训练+ONNX优化+FastAPI服务化,含感知损失函数自定义 |
Real-ESRGAN, ONNX, FastAPI |
视频理解
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 18 |
动作识别:视频Transformer |
⭐⭐⭐ |
基于VideoMAE在Kinetics-400实现动作识别,含时序注意力可视化 |
VideoMAE, Kinetics, Timm |
模型部署
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 19 |
知识蒸馏:移动端CV模型压缩 |
⭐⭐⭐⭐ |
将ViT-L蒸馏到MobileViT,INT8量化,在树莓派5上实现30fps实时检测 |
蒸馏, 量化, TFLite |
综合实战
| 编号 |
项目 |
难度 |
描述 |
技术栈 |
| 20 |
研究级项目:Kaggle竞赛金牌方案 |
⭐⭐⭐⭐⭐ |
参加RSNA / Google / Meta发起的CV竞赛,实现排名前10%的完整解决方案并写技术报告 |
Kaggle, Ensemble, TTA |
📄 CV 论文阅读路线
沿着历史脉络阅读奠基之作,掌握领域思想演进,建立阅读50+论文的系统视野
2012–2015 · 深度学习爆发 · 奠基时代
| 年份 |
论文 |
作者/来源 |
必读理由 |
重要性 |
| 2012 |
AlexNet: ImageNet Classification with Deep CNNs |
NIPS 2012 · Krizhevsky, Sutskever, Hinton |
开启深度学习时代,必读的历史性论文,理解现代CV的起点 |
⭐⭐⭐⭐⭐ |
| 2014 |
Very Deep Convolutional Networks (VGGNet) |
ICLR 2015 · Simonyan & Zisserman |
深度vs宽度的实验,奠定堆叠小卷积核的设计哲学 |
⭐⭐⭐⭐⭐ |
| 2014 |
GAN: Generative Adversarial Networks |
NIPS 2014 · Goodfellow et al. |
生成模型革命,图灵奖级工作,理解现代生成CV的起源 |
⭐⭐⭐⭐⭐ |
| 2015 |
Deep Residual Learning (ResNet) |
CVPR 2016 · He, Zhang, Ren, Sun |
残差连接彻底解决深度退化,被引用最多的CV论文之一 |
⭐⭐⭐⭐⭐ |
| 2015 |
U-Net: Convolutional Networks for Biomedical Segmentation |
MICCAI 2015 · Ronneberger et al. |
编解码+跳跃连接,医学影像标准架构,影响扩散模型 |
⭐⭐⭐⭐⭐ |
| 2015 |
Faster R-CNN: Towards Real-Time Object Detection |
NIPS 2015 · Ren, He, Girshick, Sun |
RPN + ROI Pooling, two-stage检测器奠基,理解anchor机制必读 |
⭐⭐⭐⭐⭐ |
2016–2019 · 架构创新 · 效率与精度
| 年份 |
论文 |
作者/来源 |
必读理由 |
重要性 |
| 2016 |
YOLO: You Only Look Once |
CVPR 2016 · Redmon et al. |
one-stage检测开山之作,实时检测范式,工业界最广泛应用 |
⭐⭐⭐⭐⭐ |
| 2017 |
Attention Is All You Need (Transformer) |
NIPS 2017 · Vaswani et al. |
改变AI全局,理解ViT/DETR等CV Transformer的必要前提 |
⭐⭐⭐⭐⭐ |
| 2017 |
Mask R-CNN |
ICCV 2017 · He et al. · Facebook AI |
实例分割标准baseline,ROIAlign精确对齐,延伸出无数变体 |
⭐⭐⭐⭐⭐ |
| 2018 |
DeepLab v3+: Semantic Segmentation |
ECCV 2018 · Chen et al. · Google |
空洞卷积+ASPP,语义分割标准方法,理解感受野设计 |
⭐⭐⭐⭐ |
| 2019 |
EfficientNet: Rethinking Model Scaling |
ICML 2019 · Tan & Le · Google Brain |
复合缩放策略,NAS架构设计思想,效率与精度最佳平衡 |
⭐⭐⭐⭐ |
| 2019 |
StyleGAN: A Style-Based Generator Architecture |
CVPR 2019 · Karras et al. · NVIDIA |
GAN生成质量飞跃,AdaIN风格注入,理解现代图像合成 |
⭐⭐⭐⭐⭐ |
| 年份 |
论文 |
作者/来源 |
必读理由 |
重要性 |
| 2020 |
ViT: An Image is Worth 16x16 Words |
ICLR 2021 · Dosovitskiy et al. · Google |
Transformer用于图像分类,开启ViT时代,理解现代视觉基础模型 |
⭐⭐⭐⭐⭐ |
| 2020 |
DETR: End-to-End Object Detection with Transformers |
ECCV 2020 · Carion et al. · Facebook |
消除anchor和NMS,端到端检测新范式,二分图匹配思想 |
⭐⭐⭐⭐⭐ |
| 2021 |
CLIP: Learning Transferable Visual Models from Text |
ICML 2021 · Radford et al. · OpenAI |
视觉语言对比学习,零样本迁移,多模态基础模型核心组件 |
⭐⭐⭐⭐⭐ |
| 2021 |
Swin Transformer: Hierarchical Vision Transformer |
ICCV 2021 Best Paper · Liu et al. · Microsoft |
层次化窗口注意力,密集预测任务ViT骨干,ICCV最佳论文 |
⭐⭐⭐⭐⭐ |
| 2020 |
NeRF: Representing Scenes as Neural Radiance Fields |
ECCV 2020 Best Paper · Mildenhall et al. |
神经场革命,隐式3D表示,开启新视角合成新时代 |
⭐⭐⭐⭐⭐ |
| 2022 |
DDPM: Denoising Diffusion Probabilistic Models |
NIPS 2020 + Ho et al. 2022 |
扩散模型理论基础,理解Stable Diffusion的必要前提 |
⭐⭐⭐⭐⭐ |
| 2022 |
MAE: Masked Autoencoders Are Scalable Vision Learners |
CVPR 2022 · He et al. · Facebook AI |
视觉自监督预训练新范式,75%遮掩率,大规模ViT训练方法 |
⭐⭐⭐⭐⭐ |
2023–2025 · 基础模型 · 多模态 · 具身智能
| 年份 |
论文 |
作者/来源 |
必读理由 |
重要性 |
| 2023 |
SAM: Segment Anything |
ICCV 2023 · Kirillov et al. · Meta AI |
通用分割基础模型,SA-1B数据集,prompt-based分割新范式 |
⭐⭐⭐⭐⭐ |
| 2023 |
3D Gaussian Splatting for Real-Time Novel View Synthesis |
SIGGRAPH 2023 · Kerbl et al. |
实时3D场景渲染革命,超越NeRF速度,开源生态爆发 |
⭐⭐⭐⭐⭐ |
| 2023 |
UniAD: Planning-oriented Autonomous Driving |
CVPR 2023 Best Paper · Hu et al. |
统一感知预测规划,端到端自动驾驶新范式,CVPR最佳论文 |
⭐⭐⭐⭐⭐ |
| 2023 |
LLaVA: Visual Instruction Tuning |
NeurIPS 2023 · Liu et al. |
视觉指令微调,多模态对话模型构建方法,开源VLM基础 |
⭐⭐⭐⭐⭐ |
| 2024 |
SAM 2: Segment Anything in Images and Videos |
arXiv 2024 · Ravi et al. · Meta |
将SAM扩展到视频流,流式记忆机制,统一图像视频分割 |
⭐⭐⭐⭐⭐ |
| 2024 |
Sora: Video Generation Models as World Simulators |
Technical Report · OpenAI 2024 |
扩散Transformer生成视频,世界模型视角,视频CV新前沿 |
⭐⭐⭐⭐⭐ |
| 2024 |
Depth Anything V2: Monocular Depth Estimation |
NeurIPS 2024 · Yang et al. |
基础深度估计模型,合成数据策略,单目深度SOTA |
⭐⭐⭐⭐ |
| 2025 |
Gemini 2.0 / GPT-4V Vision Reports |
Google/OpenAI Technical Reports 2025 |
多模态大语言模型视觉能力评测,了解SOTA工业级视觉系统 |
⭐⭐⭐⭐ |
🗺️ 学习路线图 · 时间规划
建议总时长 18–24 个月,全职学习可压缩至 12 个月
Phase I · 数学 & 基础 (Month 1–3)
- 线性代数 + 微积分 + 概率论
- Books 05/06/10
- Python/NumPy 熟练
- Projects 01/02
- Papers: AlexNet/ResNet
Phase II · 传统 CV (Month 3–5)
- Books 01/04/09
- Course: Stanford CS231n Part I
- Projects 01/02
- OpenCV 深度掌握
- 相机标定 + 几何视觉
Phase III · 深度学习核心 (Month 5–9)
- Books 11/12/15
- Courses: MIT 6.S191 + CS231n
- Projects 03/04/05
- Papers: VGG/ResNet/Mask RCNN
- PyTorch 工程实践
Phase IV · 三维视觉 (Month 9–12)
- Books 02/07
- Course: Stanford CS348I
- Projects 06/07/15
- Papers: NeRF/3DGS/SLAM
- COLMAP + Open3D
- Books 19/23/27
- Papers: ViT/CLIP/MAE/SAM
- Projects 05/10/12
- Diffusion Models 深度理解
- 多模态系统构建
Phase VI · 前沿 & 研究 (Month 16–24)
- 自选研究方向深挖
- Projects 17/19/20
- Papers: 2024/2025最新
- Kaggle竞赛实战
- 发表或复现顶会论文
Computer Vision · 顶级学习地图
MIT · Stanford · CMU · Oxford · DeepMind Level Curriculum
30 Books · 10 Courses · 20 Projects · 60+ Papers · March 2026