Computer Vision · 顶级学习地图

Computer Vision · 顶级学习地图

MIT · Stanford · CMU · Oxford · DeepMind Level
系统性构建世界级 CV 工程师知识体系


📊 学习资源概览

类别 数量 说明
📚 必读书籍 30本 从数学基础到深度学习前沿
🎓 顶级课程 10门 全球顶尖高校公开课
🛠️ 必做项目 20个 从经典算法到前沿系统
📄 精选论文 60+篇 沿着历史脉络阅读奠基之作

📚 30本必读书单

从数学基础、传统CV到深度学习前沿,三个阶段系统构建知识体系

Phase I · 基础奠定 (Books 01–10)

编号 书名 作者 标签
001 Computer Vision: Algorithms and Applications Richard Szeliski (2nd Ed. 2022) 圣经、免费PDF
002 Multiple View Geometry in Computer Vision Hartley & Zisserman (2003) 几何基础、数学密集
003 Programming Computer Vision with Python Jan Erik Solem (2012) 实践向、入门
004 Digital Image Processing Gonzalez & Woods (4th Ed. 2018) 图像处理、经典教材
005 Mathematics for Machine Learning Deisenroth, Faisal & Ong (2020) 数学、免费PDF
006 An Introduction to Statistical Learning James, Witten, Hastie & Tibshirani (2ed) 统计学习、免费PDF
007 Probabilistic Robotics Thrun, Burgard & Fox (2005) SLAM、概率推断
008 Pattern Recognition and Machine Learning Christopher Bishop (2006) PRML、数学严谨
009 Computer Vision: A Modern Approach Forsyth & Ponce (2nd Ed.) 传统CV、经典
010 Linear Algebra Done Right Sheldon Axler (3rd Ed.) 线代、理论严谨

Phase II · 深度学习核心 (Books 11–22)

编号 书名 作者 标签
011 Deep Learning Goodfellow, Bengio & Courville (2016) DL圣经、免费在线
012 Dive into Deep Learning (d2l.ai) Zhang, Lipton, Li & Smola (2023) 交互式、代码驱动
013 Deep Learning for Vision Systems Mohamed Elgendy (2020) CV实践、工程向
014 Neural Networks and Deep Learning Michael Nielsen (在线书) 直觉构建、免费
015 Hands-On Machine Learning (3rd Ed.) Aurélien Géron (2022) 工程实践、Sklearn+TF
016 Programming PyTorch for Deep Learning Ian Pointer (2019) PyTorch、实战
017 Object Detection in 20 Years: A Survey Wu et al. 目标检测、综述
018 Deep Learning for Medical Image Analysis Zhou, Greenspan & Shen (2017) 医学影像、应用向
019 Generative Deep Learning David Foster (2nd Ed. 2023) 生成模型、GAN/VAE/Diffusion
020 Computer Vision: Models, Learning, and Inference Simon Prince (2012) 贝叶斯CV、免费PDF
021 The Elements of Statistical Learning Hastie, Tibshirani & Friedman (2009) ESL、进阶
022 Bayesian Reasoning and Machine Learning David Barber (2012) 贝叶斯、免费PDF

Phase III · 前沿进阶 (Books 23–30)

编号 书名 作者 标签
023 Transformers for Machine Learning Tay, Dehghani et al. (2022) Transformer、ViT
024 3D Gaussian Splatting · 技术文档合集 Kerbl et al. (2023) + 社区 3DGS、NeRF
025 Reinforcement Learning from Human Feedback 综合资料 · OpenAI/Anthropic RLHF、多模态
026 Probabilistic Graphical Models Koller & Friedman (2009) PGM、深度理论
027 Diffusion Models: Theory and Applications Song, Ho et al. (2022-24) Diffusion、SOTA生成
028 Robot Perception: Fundamental Algorithms Stachniss, Leonard & Kaess 机器人感知、SLAM
029 Deep Learning on Graphs Yao Ma & Jiliang Tang (2021) GNN、图神经网络
030 Foundation Models for Vision (Survey) Bommasani et al. + 综述集 (2023) 基础模型、SAM/CLIP

🎓 10门顶级课程

全球顶尖高校与研究机构公开课,涵盖传统算法、深度学习与前沿研究

01. MIT 6.869 / 6.S192 · Advances in Computer Vision

  • 授课:William Freeman · Antonio Torralba
  • 亮点
    • 覆盖底层图像形成到高层语义理解全链路
    • 深度学习与贝叶斯视觉方法并重
    • 历年作业含完整 PyTorch 实现框架
  • 标签:MIT OCW、研究生级

02. Stanford CS231n · Deep Learning for Computer Vision

  • 授课:Li Fei-Fei · Justin Johnson · Serena Yeung
  • 亮点
    • CNN/RNN/Transformer CV应用全面讲解
    • 5个精心设计的编程作业,代码质量极高
    • ImageNet竞赛历史与现代架构演进
  • 标签:YouTube免费、必修

03. Oxford VGG · Visual Geometry & Deep Learning

  • 授课:Andrea Vedaldi · Andrew Zisserman
  • 亮点
    • VGG团队亲授,深度学习与几何视觉结合
    • 含3D重建、光流、目标检测深度内容
    • 配套VLFeat工具箱实验
  • 标签:YouTube免费、几何深度

04. DeepMind / UCL · Advanced Deep Learning & RL

  • 授课:Hado van Hasselt · David Silver
  • 亮点
    • DeepMind研究员亲授,研究前沿视角
    • 涵盖视觉与强化学习交叉方向
    • 含AlphaGo/AlphaStar视觉感知模块
  • 标签:YouTube免费、前沿

05. UC Berkeley CS182/282A · Deep Neural Networks: Design, Efficiency, Safety

  • 授课:Sergey Levine · Anant Sahai
  • 亮点
    • 深度网络设计原则与效率优化
    • 覆盖大规模视觉模型部署挑战
    • 含对抗鲁棒性与安全CV专题
  • 标签:YouTube、安全AI

06. fast.ai · Practical Deep Learning for Coders

  • 授课:Jeremy Howard · Rachel Thomas
  • 亮点
    • Top-down方法论,快速构建SOTA模型
    • fastai库深度使用,工程效率极高
    • 竞赛导向,Kaggle实战思维培养
  • 标签:fast.ai免费、工程首选

07. CMU 16-824 · Visual Learning and Recognition

  • 授课:Deva Ramanan · Abhinav Gupta
  • 亮点
    • CMU机器人研究院CV课,含具身智能
    • 视觉识别与语言理解交叉方向
    • 研究方法论培养,文献阅读训练
  • 标签:研究导向、顶级

08. Toronto Hinton Lab · Neural Networks for Machine Learning

  • 授课:Geoffrey Hinton (Coursera经典版)
  • 亮点
    • 深度学习奠基人亲讲,历史价值极高
    • 反向传播、CNN、RNN理论深度剖析
    • Capsule Networks等前瞻性思想
  • 标签:Coursera、历史必读

09. MIT 6.S191 · Introduction to Deep Learning

  • 授课:Alexander Amini · Ava Soleimany
  • 亮点
    • MIT官方DL入门,每年更新最新内容
    • 含扩散模型、视觉语言模型专讲
    • Lab含TensorFlow/JAX完整实验
  • 标签:每年更新、YouTube

10. Stanford CS348I · Computer Graphics in the Era of AI

  • 授课:Gordon Wetzstein
  • 亮点
    • NeRF · 3DGS · 神经渲染前沿
    • CV与图形学深度融合方向
    • 含Diffusion+3D生成最新进展
  • 标签:前沿神课、NeRF/3DGS

🛠️ 20个必做项目

从经典算法复现到前沿系统构建,项目导向学习是区分工程师的关键

传统CV基础

编号 项目 难度 描述 技术栈
01 从零实现 SIFT 特征提取器 ⭐⭐ 不依赖OpenCV,从高斯差分金字塔到关键点描述符完整实现,深入理解尺度不变性 Python, NumPy, Matplotlib
02 全景图拼接系统 ⭐⭐ 实现RANSAC单应矩阵估计、特征匹配与图像融合,输出质量对标商业软件 OpenCV, RANSAC, Homography

深度学习核心

编号 项目 难度 描述 技术栈
03 从零实现 CNN + CIFAR-10 分类 ⭐⭐⭐ 手写前向传播、反向传播、BatchNorm、Dropout,达到90%+准确率,深刻理解CNN原理 NumPy, 纯手写, 梯度检验
04 目标检测:YOLOv8 完整复现 ⭐⭐⭐ 从数据集标注到COCO评测,含anchor-free设计、损失函数调优、TensorRT部署 PyTorch, COCO, TensorRT
05 语义分割:SAM 微调 + 自定义域 ⭐⭐⭐ 在医学或卫星图像上微调Segment Anything,实现领域自适应,评估mIoU SAM, LoRA, mIoU

三维视觉

编号 项目 难度 描述 技术栈
06 稠密三维重建:COLMAP Pipeline ⭐⭐⭐⭐ 从多视角照片到稠密点云+网格,完整SfM+MVS流程,输出可3D打印模型 COLMAP, OpenMVS, Open3D
07 NeRF 场景重建与新视角合成 ⭐⭐⭐⭐ 基于instant-ngp或nerfstudio实现自定义场景NeRF,含训练优化与实时渲染 instant-ngp, nerfstudio, CUDA

目标检测与识别

编号 项目 难度 描述 技术栈
08 人脸识别系统:ArcFace 完整实现 ⭐⭐⭐⭐ 包含人脸检测、对齐、特征提取、metric learning训练,1:N识别精度评测 ArcFace, InsightFace, ONNX
09 视频目标跟踪:DeepSORT系统 ⭐⭐⭐ 实现多目标跟踪全流程,Kalman滤波+匈牙利算法+外观特征,MOT17评测 DeepSORT, Kalman, ByteTrack

生成模型

编号 项目 难度 描述 技术栈
10 图像生成:Stable Diffusion 微调 ⭐⭐⭐⭐ DreamBooth/LoRA微调个人风格模型,含CFG引导、ControlNet条件控制 Diffusers, LoRA, ControlNet

医学影像

编号 项目 难度 描述 技术栈
11 医学图像分割:肺结节检测 ⭐⭐⭐ LUNA16数据集,U-Net/3D CNN,含假阳性抑制,对标LUNA竞赛FROC指标 U-Net, LUNA16, SimpleITK

多模态

编号 项目 难度 描述 技术栈
12 视觉问答系统:CLIP + LLM ⭐⭐⭐ 基于CLIP视觉编码器+LLaMA构建多模态VQA,VQAv2基准评测 CLIP, LLaMA, VQAv2

自动驾驶

编号 项目 难度 描述 技术栈
13 自动驾驶感知栈:BEV鸟瞰图检测 ⭐⭐⭐⭐⭐ nuScenes数据集,BEVFusion多模态融合,相机+LiDAR 3D目标检测 BEVFusion, nuScenes, MMDet3D
17 端到端自动驾驶:UniAD 复现 ⭐⭐⭐⭐⭐ 复现CVPR2023最佳论文UniAD,统一感知预测规划框架,nuScenes完整评测 UniAD, Transformer, nuScenes

SLAM

编号 项目 难度 描述 技术栈
14 视觉SLAM系统:ORB-SLAM3 改造 ⭐⭐⭐⭐ 在TUM数据集上运行ORB-SLAM3,添加深度学习回环检测,评估ATE/RPE ORB-SLAM3, ROS2, TUM

神经渲染

编号 项目 难度 描述 技术栈
15 3D Gaussian Splatting 自定义场景 ⭐⭐⭐⭐ 从手机视频重建室内/室外场景,3DGS训练+实时WebGL渲染器 3DGS, CUDA, WebGL

图像增强

编号 项目 难度 描述 技术栈
16 图像超分辨率:Real-ESRGAN 部署 ⭐⭐⭐ Real-ESRGAN训练+ONNX优化+FastAPI服务化,含感知损失函数自定义 Real-ESRGAN, ONNX, FastAPI

视频理解

编号 项目 难度 描述 技术栈
18 动作识别:视频Transformer ⭐⭐⭐ 基于VideoMAE在Kinetics-400实现动作识别,含时序注意力可视化 VideoMAE, Kinetics, Timm

模型部署

编号 项目 难度 描述 技术栈
19 知识蒸馏:移动端CV模型压缩 ⭐⭐⭐⭐ 将ViT-L蒸馏到MobileViT,INT8量化,在树莓派5上实现30fps实时检测 蒸馏, 量化, TFLite

综合实战

编号 项目 难度 描述 技术栈
20 研究级项目:Kaggle竞赛金牌方案 ⭐⭐⭐⭐⭐ 参加RSNA / Google / Meta发起的CV竞赛,实现排名前10%的完整解决方案并写技术报告 Kaggle, Ensemble, TTA

📄 CV 论文阅读路线

沿着历史脉络阅读奠基之作,掌握领域思想演进,建立阅读50+论文的系统视野

2012–2015 · 深度学习爆发 · 奠基时代

年份 论文 作者/来源 必读理由 重要性
2012 AlexNet: ImageNet Classification with Deep CNNs NIPS 2012 · Krizhevsky, Sutskever, Hinton 开启深度学习时代,必读的历史性论文,理解现代CV的起点 ⭐⭐⭐⭐⭐
2014 Very Deep Convolutional Networks (VGGNet) ICLR 2015 · Simonyan & Zisserman 深度vs宽度的实验,奠定堆叠小卷积核的设计哲学 ⭐⭐⭐⭐⭐
2014 GAN: Generative Adversarial Networks NIPS 2014 · Goodfellow et al. 生成模型革命,图灵奖级工作,理解现代生成CV的起源 ⭐⭐⭐⭐⭐
2015 Deep Residual Learning (ResNet) CVPR 2016 · He, Zhang, Ren, Sun 残差连接彻底解决深度退化,被引用最多的CV论文之一 ⭐⭐⭐⭐⭐
2015 U-Net: Convolutional Networks for Biomedical Segmentation MICCAI 2015 · Ronneberger et al. 编解码+跳跃连接,医学影像标准架构,影响扩散模型 ⭐⭐⭐⭐⭐
2015 Faster R-CNN: Towards Real-Time Object Detection NIPS 2015 · Ren, He, Girshick, Sun RPN + ROI Pooling, two-stage检测器奠基,理解anchor机制必读 ⭐⭐⭐⭐⭐

2016–2019 · 架构创新 · 效率与精度

年份 论文 作者/来源 必读理由 重要性
2016 YOLO: You Only Look Once CVPR 2016 · Redmon et al. one-stage检测开山之作,实时检测范式,工业界最广泛应用 ⭐⭐⭐⭐⭐
2017 Attention Is All You Need (Transformer) NIPS 2017 · Vaswani et al. 改变AI全局,理解ViT/DETR等CV Transformer的必要前提 ⭐⭐⭐⭐⭐
2017 Mask R-CNN ICCV 2017 · He et al. · Facebook AI 实例分割标准baseline,ROIAlign精确对齐,延伸出无数变体 ⭐⭐⭐⭐⭐
2018 DeepLab v3+: Semantic Segmentation ECCV 2018 · Chen et al. · Google 空洞卷积+ASPP,语义分割标准方法,理解感受野设计 ⭐⭐⭐⭐
2019 EfficientNet: Rethinking Model Scaling ICML 2019 · Tan & Le · Google Brain 复合缩放策略,NAS架构设计思想,效率与精度最佳平衡 ⭐⭐⭐⭐
2019 StyleGAN: A Style-Based Generator Architecture CVPR 2019 · Karras et al. · NVIDIA GAN生成质量飞跃,AdaIN风格注入,理解现代图像合成 ⭐⭐⭐⭐⭐

2020–2022 · Transformer 统治 · 大模型时代

年份 论文 作者/来源 必读理由 重要性
2020 ViT: An Image is Worth 16x16 Words ICLR 2021 · Dosovitskiy et al. · Google Transformer用于图像分类,开启ViT时代,理解现代视觉基础模型 ⭐⭐⭐⭐⭐
2020 DETR: End-to-End Object Detection with Transformers ECCV 2020 · Carion et al. · Facebook 消除anchor和NMS,端到端检测新范式,二分图匹配思想 ⭐⭐⭐⭐⭐
2021 CLIP: Learning Transferable Visual Models from Text ICML 2021 · Radford et al. · OpenAI 视觉语言对比学习,零样本迁移,多模态基础模型核心组件 ⭐⭐⭐⭐⭐
2021 Swin Transformer: Hierarchical Vision Transformer ICCV 2021 Best Paper · Liu et al. · Microsoft 层次化窗口注意力,密集预测任务ViT骨干,ICCV最佳论文 ⭐⭐⭐⭐⭐
2020 NeRF: Representing Scenes as Neural Radiance Fields ECCV 2020 Best Paper · Mildenhall et al. 神经场革命,隐式3D表示,开启新视角合成新时代 ⭐⭐⭐⭐⭐
2022 DDPM: Denoising Diffusion Probabilistic Models NIPS 2020 + Ho et al. 2022 扩散模型理论基础,理解Stable Diffusion的必要前提 ⭐⭐⭐⭐⭐
2022 MAE: Masked Autoencoders Are Scalable Vision Learners CVPR 2022 · He et al. · Facebook AI 视觉自监督预训练新范式,75%遮掩率,大规模ViT训练方法 ⭐⭐⭐⭐⭐

2023–2025 · 基础模型 · 多模态 · 具身智能

年份 论文 作者/来源 必读理由 重要性
2023 SAM: Segment Anything ICCV 2023 · Kirillov et al. · Meta AI 通用分割基础模型,SA-1B数据集,prompt-based分割新范式 ⭐⭐⭐⭐⭐
2023 3D Gaussian Splatting for Real-Time Novel View Synthesis SIGGRAPH 2023 · Kerbl et al. 实时3D场景渲染革命,超越NeRF速度,开源生态爆发 ⭐⭐⭐⭐⭐
2023 UniAD: Planning-oriented Autonomous Driving CVPR 2023 Best Paper · Hu et al. 统一感知预测规划,端到端自动驾驶新范式,CVPR最佳论文 ⭐⭐⭐⭐⭐
2023 LLaVA: Visual Instruction Tuning NeurIPS 2023 · Liu et al. 视觉指令微调,多模态对话模型构建方法,开源VLM基础 ⭐⭐⭐⭐⭐
2024 SAM 2: Segment Anything in Images and Videos arXiv 2024 · Ravi et al. · Meta 将SAM扩展到视频流,流式记忆机制,统一图像视频分割 ⭐⭐⭐⭐⭐
2024 Sora: Video Generation Models as World Simulators Technical Report · OpenAI 2024 扩散Transformer生成视频,世界模型视角,视频CV新前沿 ⭐⭐⭐⭐⭐
2024 Depth Anything V2: Monocular Depth Estimation NeurIPS 2024 · Yang et al. 基础深度估计模型,合成数据策略,单目深度SOTA ⭐⭐⭐⭐
2025 Gemini 2.0 / GPT-4V Vision Reports Google/OpenAI Technical Reports 2025 多模态大语言模型视觉能力评测,了解SOTA工业级视觉系统 ⭐⭐⭐⭐

🗺️ 学习路线图 · 时间规划

建议总时长 18–24 个月,全职学习可压缩至 12 个月

Phase I · 数学 & 基础 (Month 1–3)

  • 线性代数 + 微积分 + 概率论
  • Books 05/06/10
  • Python/NumPy 熟练
  • Projects 01/02
  • Papers: AlexNet/ResNet

Phase II · 传统 CV (Month 3–5)

  • Books 01/04/09
  • Course: Stanford CS231n Part I
  • Projects 01/02
  • OpenCV 深度掌握
  • 相机标定 + 几何视觉

Phase III · 深度学习核心 (Month 5–9)

  • Books 11/12/15
  • Courses: MIT 6.S191 + CS231n
  • Projects 03/04/05
  • Papers: VGG/ResNet/Mask RCNN
  • PyTorch 工程实践

Phase IV · 三维视觉 (Month 9–12)

  • Books 02/07
  • Course: Stanford CS348I
  • Projects 06/07/15
  • Papers: NeRF/3DGS/SLAM
  • COLMAP + Open3D

Phase V · Transformer & 生成 (Month 12–16)

  • Books 19/23/27
  • Papers: ViT/CLIP/MAE/SAM
  • Projects 05/10/12
  • Diffusion Models 深度理解
  • 多模态系统构建

Phase VI · 前沿 & 研究 (Month 16–24)

  • 自选研究方向深挖
  • Projects 17/19/20
  • Papers: 2024/2025最新
  • Kaggle竞赛实战
  • 发表或复现顶会论文

Computer Vision · 顶级学习地图
MIT · Stanford · CMU · Oxford · DeepMind Level Curriculum
30 Books · 10 Courses · 20 Projects · 60+ Papers · March 2026

posted @ 2026-03-08 15:02  方子敬  阅读(6)  评论(0)    收藏  举报