Computer Vision · 顶级学习地图

MIT · Stanford · CMU · Oxford · DeepMind Level
系统性构建世界级 CV 工程师知识体系

📊 学习资源概览

类别	数量	说明
📚 必读书籍	30本	从数学基础到深度学习前沿
🎓 顶级课程	10门	全球顶尖高校公开课
🛠️ 必做项目	20个	从经典算法到前沿系统
📄 精选论文	60+篇	沿着历史脉络阅读奠基之作

📚 30本必读书单

从数学基础、传统CV到深度学习前沿，三个阶段系统构建知识体系

Phase I · 基础奠定 (Books 01–10)

编号	书名	作者	标签
001	Computer Vision: Algorithms and Applications	Richard Szeliski (2nd Ed. 2022)	圣经、免费PDF
002	Multiple View Geometry in Computer Vision	Hartley & Zisserman (2003)	几何基础、数学密集
003	Programming Computer Vision with Python	Jan Erik Solem (2012)	实践向、入门
004	Digital Image Processing	Gonzalez & Woods (4th Ed. 2018)	图像处理、经典教材
005	Mathematics for Machine Learning	Deisenroth, Faisal & Ong (2020)	数学、免费PDF
006	An Introduction to Statistical Learning	James, Witten, Hastie & Tibshirani (2ed)	统计学习、免费PDF
007	Probabilistic Robotics	Thrun, Burgard & Fox (2005)	SLAM、概率推断
008	Pattern Recognition and Machine Learning	Christopher Bishop (2006)	PRML、数学严谨
009	Computer Vision: A Modern Approach	Forsyth & Ponce (2nd Ed.)	传统CV、经典
010	Linear Algebra Done Right	Sheldon Axler (3rd Ed.)	线代、理论严谨

Phase II · 深度学习核心 (Books 11–22)

编号	书名	作者	标签
011	Deep Learning	Goodfellow, Bengio & Courville (2016)	DL圣经、免费在线
012	Dive into Deep Learning (d2l.ai)	Zhang, Lipton, Li & Smola (2023)	交互式、代码驱动
013	Deep Learning for Vision Systems	Mohamed Elgendy (2020)	CV实践、工程向
014	Neural Networks and Deep Learning	Michael Nielsen (在线书)	直觉构建、免费
015	Hands-On Machine Learning (3rd Ed.)	Aurélien Géron (2022)	工程实践、Sklearn+TF
016	Programming PyTorch for Deep Learning	Ian Pointer (2019)	PyTorch、实战
017	Object Detection in 20 Years: A Survey	Wu et al.	目标检测、综述
018	Deep Learning for Medical Image Analysis	Zhou, Greenspan & Shen (2017)	医学影像、应用向
019	Generative Deep Learning	David Foster (2nd Ed. 2023)	生成模型、GAN/VAE/Diffusion
020	Computer Vision: Models, Learning, and Inference	Simon Prince (2012)	贝叶斯CV、免费PDF
021	The Elements of Statistical Learning	Hastie, Tibshirani & Friedman (2009)	ESL、进阶
022	Bayesian Reasoning and Machine Learning	David Barber (2012)	贝叶斯、免费PDF

Phase III · 前沿进阶 (Books 23–30)

编号	书名	作者	标签
023	Transformers for Machine Learning	Tay, Dehghani et al. (2022)	Transformer、ViT
024	3D Gaussian Splatting · 技术文档合集	Kerbl et al. (2023) + 社区	3DGS、NeRF
025	Reinforcement Learning from Human Feedback	综合资料 · OpenAI/Anthropic	RLHF、多模态
026	Probabilistic Graphical Models	Koller & Friedman (2009)	PGM、深度理论
027	Diffusion Models: Theory and Applications	Song, Ho et al. (2022-24)	Diffusion、SOTA生成
028	Robot Perception: Fundamental Algorithms	Stachniss, Leonard & Kaess	机器人感知、SLAM
029	Deep Learning on Graphs	Yao Ma & Jiliang Tang (2021)	GNN、图神经网络
030	Foundation Models for Vision (Survey)	Bommasani et al. + 综述集 (2023)	基础模型、SAM/CLIP

🎓 10门顶级课程

全球顶尖高校与研究机构公开课，涵盖传统算法、深度学习与前沿研究

01. MIT 6.869 / 6.S192 · Advances in Computer Vision

授课：William Freeman · Antonio Torralba
亮点：
- 覆盖底层图像形成到高层语义理解全链路
- 深度学习与贝叶斯视觉方法并重
- 历年作业含完整 PyTorch 实现框架
标签：MIT OCW、研究生级

02. Stanford CS231n · Deep Learning for Computer Vision

授课：Li Fei-Fei · Justin Johnson · Serena Yeung
亮点：
- CNN/RNN/Transformer CV应用全面讲解
- 5个精心设计的编程作业，代码质量极高
- ImageNet竞赛历史与现代架构演进
标签：YouTube免费、必修

03. Oxford VGG · Visual Geometry & Deep Learning

授课：Andrea Vedaldi · Andrew Zisserman
亮点：
- VGG团队亲授，深度学习与几何视觉结合
- 含3D重建、光流、目标检测深度内容
- 配套VLFeat工具箱实验
标签：YouTube免费、几何深度

04. DeepMind / UCL · Advanced Deep Learning & RL

授课：Hado van Hasselt · David Silver
亮点：
- DeepMind研究员亲授，研究前沿视角
- 涵盖视觉与强化学习交叉方向
- 含AlphaGo/AlphaStar视觉感知模块
标签：YouTube免费、前沿

05. UC Berkeley CS182/282A · Deep Neural Networks: Design, Efficiency, Safety

授课：Sergey Levine · Anant Sahai
亮点：
- 深度网络设计原则与效率优化
- 覆盖大规模视觉模型部署挑战
- 含对抗鲁棒性与安全CV专题
标签：YouTube、安全AI

06. fast.ai · Practical Deep Learning for Coders

授课：Jeremy Howard · Rachel Thomas
亮点：
- Top-down方法论，快速构建SOTA模型
- fastai库深度使用，工程效率极高
- 竞赛导向，Kaggle实战思维培养
标签：fast.ai免费、工程首选

07. CMU 16-824 · Visual Learning and Recognition

授课：Deva Ramanan · Abhinav Gupta
亮点：
- CMU机器人研究院CV课，含具身智能
- 视觉识别与语言理解交叉方向
- 研究方法论培养，文献阅读训练
标签：研究导向、顶级

08. Toronto Hinton Lab · Neural Networks for Machine Learning

授课：Geoffrey Hinton (Coursera经典版)
亮点：
- 深度学习奠基人亲讲，历史价值极高
- 反向传播、CNN、RNN理论深度剖析
- Capsule Networks等前瞻性思想
标签：Coursera、历史必读

09. MIT 6.S191 · Introduction to Deep Learning

授课：Alexander Amini · Ava Soleimany
亮点：
- MIT官方DL入门，每年更新最新内容
- 含扩散模型、视觉语言模型专讲
- Lab含TensorFlow/JAX完整实验
标签：每年更新、YouTube

10. Stanford CS348I · Computer Graphics in the Era of AI

授课：Gordon Wetzstein
亮点：
- NeRF · 3DGS · 神经渲染前沿
- CV与图形学深度融合方向
- 含Diffusion+3D生成最新进展
标签：前沿神课、NeRF/3DGS

🛠️ 20个必做项目

从经典算法复现到前沿系统构建，项目导向学习是区分工程师的关键

传统CV基础

编号	项目	难度	描述	技术栈
01	从零实现 SIFT 特征提取器	⭐⭐	不依赖OpenCV，从高斯差分金字塔到关键点描述符完整实现，深入理解尺度不变性	Python, NumPy, Matplotlib
02	全景图拼接系统	⭐⭐	实现RANSAC单应矩阵估计、特征匹配与图像融合，输出质量对标商业软件	OpenCV, RANSAC, Homography

深度学习核心

编号	项目	难度	描述	技术栈
03	从零实现 CNN + CIFAR-10 分类	⭐⭐⭐	手写前向传播、反向传播、BatchNorm、Dropout，达到90%+准确率，深刻理解CNN原理	NumPy, 纯手写, 梯度检验
04	目标检测：YOLOv8 完整复现	⭐⭐⭐	从数据集标注到COCO评测，含anchor-free设计、损失函数调优、TensorRT部署	PyTorch, COCO, TensorRT
05	语义分割：SAM 微调 + 自定义域	⭐⭐⭐	在医学或卫星图像上微调Segment Anything，实现领域自适应，评估mIoU	SAM, LoRA, mIoU

三维视觉

编号	项目	难度	描述	技术栈
06	稠密三维重建：COLMAP Pipeline	⭐⭐⭐⭐	从多视角照片到稠密点云+网格，完整SfM+MVS流程，输出可3D打印模型	COLMAP, OpenMVS, Open3D
07	NeRF 场景重建与新视角合成	⭐⭐⭐⭐	基于instant-ngp或nerfstudio实现自定义场景NeRF，含训练优化与实时渲染	instant-ngp, nerfstudio, CUDA

目标检测与识别

编号	项目	难度	描述	技术栈
08	人脸识别系统：ArcFace 完整实现	⭐⭐⭐⭐	包含人脸检测、对齐、特征提取、metric learning训练，1:N识别精度评测	ArcFace, InsightFace, ONNX
09	视频目标跟踪：DeepSORT系统	⭐⭐⭐	实现多目标跟踪全流程，Kalman滤波+匈牙利算法+外观特征，MOT17评测	DeepSORT, Kalman, ByteTrack

生成模型

编号	项目	难度	描述	技术栈
10	图像生成：Stable Diffusion 微调	⭐⭐⭐⭐	DreamBooth/LoRA微调个人风格模型，含CFG引导、ControlNet条件控制	Diffusers, LoRA, ControlNet

医学影像

编号	项目	难度	描述	技术栈
11	医学图像分割：肺结节检测	⭐⭐⭐	LUNA16数据集，U-Net/3D CNN，含假阳性抑制，对标LUNA竞赛FROC指标	U-Net, LUNA16, SimpleITK

多模态

编号	项目	难度	描述	技术栈
12	视觉问答系统：CLIP + LLM	⭐⭐⭐	基于CLIP视觉编码器+LLaMA构建多模态VQA，VQAv2基准评测	CLIP, LLaMA, VQAv2

自动驾驶

编号	项目	难度	描述	技术栈
13	自动驾驶感知栈：BEV鸟瞰图检测	⭐⭐⭐⭐⭐	nuScenes数据集，BEVFusion多模态融合，相机+LiDAR 3D目标检测	BEVFusion, nuScenes, MMDet3D
17	端到端自动驾驶：UniAD 复现	⭐⭐⭐⭐⭐	复现CVPR2023最佳论文UniAD，统一感知预测规划框架，nuScenes完整评测	UniAD, Transformer, nuScenes

SLAM

编号	项目	难度	描述	技术栈
14	视觉SLAM系统：ORB-SLAM3 改造	⭐⭐⭐⭐	在TUM数据集上运行ORB-SLAM3，添加深度学习回环检测，评估ATE/RPE	ORB-SLAM3, ROS2, TUM

神经渲染

编号	项目	难度	描述	技术栈
15	3D Gaussian Splatting 自定义场景	⭐⭐⭐⭐	从手机视频重建室内/室外场景，3DGS训练+实时WebGL渲染器	3DGS, CUDA, WebGL

图像增强

编号	项目	难度	描述	技术栈
16	图像超分辨率：Real-ESRGAN 部署	⭐⭐⭐	Real-ESRGAN训练+ONNX优化+FastAPI服务化，含感知损失函数自定义	Real-ESRGAN, ONNX, FastAPI

视频理解

编号	项目	难度	描述	技术栈
18	动作识别：视频Transformer	⭐⭐⭐	基于VideoMAE在Kinetics-400实现动作识别，含时序注意力可视化	VideoMAE, Kinetics, Timm

模型部署

编号	项目	难度	描述	技术栈
19	知识蒸馏：移动端CV模型压缩	⭐⭐⭐⭐	将ViT-L蒸馏到MobileViT，INT8量化，在树莓派5上实现30fps实时检测	蒸馏, 量化, TFLite

综合实战

编号	项目	难度	描述	技术栈
20	研究级项目：Kaggle竞赛金牌方案	⭐⭐⭐⭐⭐	参加RSNA / Google / Meta发起的CV竞赛，实现排名前10%的完整解决方案并写技术报告	Kaggle, Ensemble, TTA

📄 CV 论文阅读路线

沿着历史脉络阅读奠基之作，掌握领域思想演进，建立阅读50+论文的系统视野

2012–2015 · 深度学习爆发 · 奠基时代

年份	论文	作者/来源	必读理由	重要性
2012	AlexNet: ImageNet Classification with Deep CNNs	NIPS 2012 · Krizhevsky, Sutskever, Hinton	开启深度学习时代，必读的历史性论文，理解现代CV的起点	⭐⭐⭐⭐⭐
2014	Very Deep Convolutional Networks (VGGNet)	ICLR 2015 · Simonyan & Zisserman	深度vs宽度的实验，奠定堆叠小卷积核的设计哲学	⭐⭐⭐⭐⭐
2014	GAN: Generative Adversarial Networks	NIPS 2014 · Goodfellow et al.	生成模型革命，图灵奖级工作，理解现代生成CV的起源	⭐⭐⭐⭐⭐
2015	Deep Residual Learning (ResNet)	CVPR 2016 · He, Zhang, Ren, Sun	残差连接彻底解决深度退化，被引用最多的CV论文之一	⭐⭐⭐⭐⭐
2015	U-Net: Convolutional Networks for Biomedical Segmentation	MICCAI 2015 · Ronneberger et al.	编解码+跳跃连接，医学影像标准架构，影响扩散模型	⭐⭐⭐⭐⭐
2015	Faster R-CNN: Towards Real-Time Object Detection	NIPS 2015 · Ren, He, Girshick, Sun	RPN + ROI Pooling, two-stage检测器奠基，理解anchor机制必读	⭐⭐⭐⭐⭐

2016–2019 · 架构创新 · 效率与精度

年份	论文	作者/来源	必读理由	重要性
2016	YOLO: You Only Look Once	CVPR 2016 · Redmon et al.	one-stage检测开山之作，实时检测范式，工业界最广泛应用	⭐⭐⭐⭐⭐
2017	Attention Is All You Need (Transformer)	NIPS 2017 · Vaswani et al.	改变AI全局，理解ViT/DETR等CV Transformer的必要前提	⭐⭐⭐⭐⭐
2017	Mask R-CNN	ICCV 2017 · He et al. · Facebook AI	实例分割标准baseline，ROIAlign精确对齐，延伸出无数变体	⭐⭐⭐⭐⭐
2018	DeepLab v3+: Semantic Segmentation	ECCV 2018 · Chen et al. · Google	空洞卷积+ASPP，语义分割标准方法，理解感受野设计	⭐⭐⭐⭐
2019	EfficientNet: Rethinking Model Scaling	ICML 2019 · Tan & Le · Google Brain	复合缩放策略，NAS架构设计思想，效率与精度最佳平衡	⭐⭐⭐⭐
2019	StyleGAN: A Style-Based Generator Architecture	CVPR 2019 · Karras et al. · NVIDIA	GAN生成质量飞跃，AdaIN风格注入，理解现代图像合成	⭐⭐⭐⭐⭐

2020–2022 · Transformer 统治 · 大模型时代

年份	论文	作者/来源	必读理由	重要性
2020	ViT: An Image is Worth 16x16 Words	ICLR 2021 · Dosovitskiy et al. · Google	Transformer用于图像分类，开启ViT时代，理解现代视觉基础模型	⭐⭐⭐⭐⭐
2020	DETR: End-to-End Object Detection with Transformers	ECCV 2020 · Carion et al. · Facebook	消除anchor和NMS，端到端检测新范式，二分图匹配思想	⭐⭐⭐⭐⭐
2021	CLIP: Learning Transferable Visual Models from Text	ICML 2021 · Radford et al. · OpenAI	视觉语言对比学习，零样本迁移，多模态基础模型核心组件	⭐⭐⭐⭐⭐
2021	Swin Transformer: Hierarchical Vision Transformer	ICCV 2021 Best Paper · Liu et al. · Microsoft	层次化窗口注意力，密集预测任务ViT骨干，ICCV最佳论文	⭐⭐⭐⭐⭐
2020	NeRF: Representing Scenes as Neural Radiance Fields	ECCV 2020 Best Paper · Mildenhall et al.	神经场革命，隐式3D表示，开启新视角合成新时代	⭐⭐⭐⭐⭐
2022	DDPM: Denoising Diffusion Probabilistic Models	NIPS 2020 + Ho et al. 2022	扩散模型理论基础，理解Stable Diffusion的必要前提	⭐⭐⭐⭐⭐
2022	MAE: Masked Autoencoders Are Scalable Vision Learners	CVPR 2022 · He et al. · Facebook AI	视觉自监督预训练新范式，75%遮掩率，大规模ViT训练方法	⭐⭐⭐⭐⭐

2023–2025 · 基础模型 · 多模态 · 具身智能

年份	论文	作者/来源	必读理由	重要性
2023	SAM: Segment Anything	ICCV 2023 · Kirillov et al. · Meta AI	通用分割基础模型，SA-1B数据集，prompt-based分割新范式	⭐⭐⭐⭐⭐
2023	3D Gaussian Splatting for Real-Time Novel View Synthesis	SIGGRAPH 2023 · Kerbl et al.	实时3D场景渲染革命，超越NeRF速度，开源生态爆发	⭐⭐⭐⭐⭐
2023	UniAD: Planning-oriented Autonomous Driving	CVPR 2023 Best Paper · Hu et al.	统一感知预测规划，端到端自动驾驶新范式，CVPR最佳论文	⭐⭐⭐⭐⭐
2023	LLaVA: Visual Instruction Tuning	NeurIPS 2023 · Liu et al.	视觉指令微调，多模态对话模型构建方法，开源VLM基础	⭐⭐⭐⭐⭐
2024	SAM 2: Segment Anything in Images and Videos	arXiv 2024 · Ravi et al. · Meta	将SAM扩展到视频流，流式记忆机制，统一图像视频分割	⭐⭐⭐⭐⭐
2024	Sora: Video Generation Models as World Simulators	Technical Report · OpenAI 2024	扩散Transformer生成视频，世界模型视角，视频CV新前沿	⭐⭐⭐⭐⭐
2024	Depth Anything V2: Monocular Depth Estimation	NeurIPS 2024 · Yang et al.	基础深度估计模型，合成数据策略，单目深度SOTA	⭐⭐⭐⭐
2025	Gemini 2.0 / GPT-4V Vision Reports	Google/OpenAI Technical Reports 2025	多模态大语言模型视觉能力评测，了解SOTA工业级视觉系统	⭐⭐⭐⭐

🗺️ 学习路线图 · 时间规划

建议总时长 18–24 个月，全职学习可压缩至 12 个月

Phase I · 数学 & 基础 (Month 1–3)

线性代数 + 微积分 + 概率论
Books 05/06/10
Python/NumPy 熟练
Projects 01/02
Papers: AlexNet/ResNet

Phase II · 传统 CV (Month 3–5)

Books 01/04/09
Course: Stanford CS231n Part I
Projects 01/02
OpenCV 深度掌握
相机标定 + 几何视觉

Phase III · 深度学习核心 (Month 5–9)

Books 11/12/15
Courses: MIT 6.S191 + CS231n
Projects 03/04/05
Papers: VGG/ResNet/Mask RCNN
PyTorch 工程实践

Phase IV · 三维视觉 (Month 9–12)

Books 02/07
Course: Stanford CS348I
Projects 06/07/15
Papers: NeRF/3DGS/SLAM
COLMAP + Open3D

Phase V · Transformer & 生成 (Month 12–16)

Books 19/23/27
Papers: ViT/CLIP/MAE/SAM
Projects 05/10/12
Diffusion Models 深度理解
多模态系统构建

Phase VI · 前沿 & 研究 (Month 16–24)

自选研究方向深挖
Projects 17/19/20
Papers: 2024/2025最新
Kaggle竞赛实战
发表或复现顶会论文

Computer Vision · 顶级学习地图
MIT · Stanford · CMU · Oxford · DeepMind Level Curriculum
30 Books · 10 Courses · 20 Projects · 60+ Papers · March 2026

posted @ 2026-03-08 15:02 方子敬阅读(142) 评论(0) 收藏举报

刷新页面返回顶部

zhchoice

Computer Vision · 顶级学习地图

Computer Vision · 顶级学习地图

📊 学习资源概览

📚 30本必读书单

Phase I · 基础奠定 (Books 01–10)

Phase II · 深度学习核心 (Books 11–22)

Phase III · 前沿进阶 (Books 23–30)

🎓 10门顶级课程

01. MIT 6.869 / 6.S192 · Advances in Computer Vision

02. Stanford CS231n · Deep Learning for Computer Vision

03. Oxford VGG · Visual Geometry & Deep Learning

04. DeepMind / UCL · Advanced Deep Learning & RL

05. UC Berkeley CS182/282A · Deep Neural Networks: Design, Efficiency, Safety

06. fast.ai · Practical Deep Learning for Coders

07. CMU 16-824 · Visual Learning and Recognition

08. Toronto Hinton Lab · Neural Networks for Machine Learning

09. MIT 6.S191 · Introduction to Deep Learning

10. Stanford CS348I · Computer Graphics in the Era of AI

🛠️ 20个必做项目

传统CV基础

深度学习核心

三维视觉

目标检测与识别

生成模型

医学影像

多模态

自动驾驶

SLAM

神经渲染

图像增强

视频理解

模型部署

综合实战

📄 CV 论文阅读路线

2012–2015 · 深度学习爆发 · 奠基时代

2016–2019 · 架构创新 · 效率与精度

2020–2022 · Transformer 统治 · 大模型时代

2023–2025 · 基础模型 · 多模态 · 具身智能

🗺️ 学习路线图 · 时间规划

Phase I · 数学 & 基础 (Month 1–3)

Phase II · 传统 CV (Month 3–5)

Phase III · 深度学习核心 (Month 5–9)

Phase IV · 三维视觉 (Month 9–12)

Phase V · Transformer & 生成 (Month 12–16)

Phase VI · 前沿 & 研究 (Month 16–24)

公告