深度学习分支


是的,而且不止视觉处理。

你要区分清楚两个维度:

  • 深度学习(Deep Learning)是方法论
  • 下面是不同的应用方向(Application Domains)

深度学习的主要应用方向

人工智能(AI)
 └── 机器学习(ML)
      └── 深度学习(DL)
           ├── NLP(自然语言处理)
           ├── CV(计算机视觉)
           ├── Speech(语音处理)
           ├── 多模态(Multimodal)
           ├── 推荐系统
           ├── 强化学习
           └── 科学计算/生物医药

1️⃣ 计算机视觉(Computer Vision, CV)

这是和 NLP 并列的最大方向之一。

研究内容:

  • 图像分类
  • 目标检测
  • 图像分割
  • 人脸识别
  • OCR
  • 视频理解
  • 图像生成(Diffusion)

核心模型:

  • CNN
  • Vision Transformer (ViT)
  • YOLO
  • ResNet
  • SAM

2️⃣ 语音处理(Speech AI)

包括:

  • 语音识别(ASR)
  • 语音合成(TTS)
  • 声纹识别
  • 语音增强

现在大量使用:

  • Transformer
  • Conformer
  • Whisper类模型

3️⃣ 多模态(Multimodal)

这是当前最前沿方向:

  • 图文理解(CLIP)
  • 文生图(Stable Diffusion)
  • 图生文(BLIP)
  • GPT-4o 类模型

特点:融合 NLP + CV + Speech


4️⃣ 推荐系统

电商、短视频平台核心算法:

  • DNN
  • Wide & Deep
  • DeepFM
  • Transformer-based ranking

5️⃣ 强化学习(RL)

  • AlphaGo
  • 自动驾驶
  • 机器人控制
  • RLHF(大模型训练)

6️⃣ 科学与工业领域

  • 蛋白质结构预测(AlphaFold)
  • 药物发现
  • 金融预测
  • 天气建模

核心认知(重要)

深度学习 ≠ NLP
深度学习 ≠ 视觉

它是一个“统一建模框架”。

今天的趋势是:

Transformer 正在统一 NLP、CV、Speech

例如:

  • ViT 把视觉当作序列处理
  • GPT 处理图像 patch
  • 多模态模型共享 backbone
posted @ 2026-02-07 17:47  向着朝阳  阅读(16)  评论(0)    收藏  举报