深度学习分支

深度学习的主要应用方向
1️⃣ 计算机视觉（Computer Vision, CV）
2️⃣ 语音处理（Speech AI）
3️⃣ 多模态（Multimodal）
4️⃣ 推荐系统
5️⃣ 强化学习（RL）
6️⃣ 科学与工业领域
核心认知（重要）

是的，而且不止视觉处理。

你要区分清楚两个维度：

深度学习（Deep Learning）是方法论
下面是不同的应用方向（Application Domains）

深度学习的主要应用方向

人工智能（AI）
 └── 机器学习（ML）
      └── 深度学习（DL）
           ├── NLP（自然语言处理）
           ├── CV（计算机视觉）
           ├── Speech（语音处理）
           ├── 多模态（Multimodal）
           ├── 推荐系统
           ├── 强化学习
           └── 科学计算/生物医药

1️⃣ 计算机视觉（Computer Vision, CV）

这是和 NLP 并列的最大方向之一。

研究内容：

图像分类
目标检测
图像分割
人脸识别
OCR
视频理解
图像生成（Diffusion）

核心模型：

CNN
Vision Transformer (ViT)
YOLO
ResNet
SAM

2️⃣ 语音处理（Speech AI）

包括：

语音识别（ASR）
语音合成（TTS）
声纹识别
语音增强

现在大量使用：

Transformer
Conformer
Whisper类模型

3️⃣ 多模态（Multimodal）

这是当前最前沿方向：

图文理解（CLIP）
文生图（Stable Diffusion）
图生文（BLIP）
GPT-4o 类模型

特点：融合 NLP + CV + Speech

4️⃣ 推荐系统

电商、短视频平台核心算法：

DNN
Wide & Deep
DeepFM
Transformer-based ranking

5️⃣ 强化学习（RL）

AlphaGo
自动驾驶
机器人控制
RLHF（大模型训练）

6️⃣ 科学与工业领域

蛋白质结构预测（AlphaFold）
药物发现
金融预测
天气建模

核心认知（重要）

深度学习 ≠ NLP
深度学习 ≠ 视觉

它是一个“统一建模框架”。

今天的趋势是：

Transformer 正在统一 NLP、CV、Speech

例如：

ViT 把视觉当作序列处理
GPT 处理图像 patch
多模态模型共享 backbone

posted @ 2026-02-07 17:47 向着朝阳阅读(78) 评论(0) 收藏举报

刷新页面返回顶部

aibi1