神经网络与深度学习学习笔记(四)
一、视觉模型深度解析
-
Vision Transformer (ViT)
- Patch处理
- 输入图像(224×224)分割为196个16×16 Patch,线性投影为768维向量。
- 添加类别Token(
[class])和位置编码(一维正弦函数):PE_{(pos,2i)} = \sin(pos/10000^{2i/d}), \quad PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d})
- Transformer编码器
- 12层结构(ViT-Base),每层含多头自注意力(12头)+ MLP(3072维)。
- LayerNorm置于残差连接前(与原始Transformer不同)。
- 性能对比
模型 ImageNet精度 预训练数据量 ViT-H/14 88.55% JFT-300M BiT-L (ResNet) 87.54% JFT-300M
- Patch处理
-
CLIP:图文对齐模型
- 对比学习目标
- 最大化正样本对相似度:图像特征
I_e与文本特征T_e的余弦相似度。 - 损失函数:对称交叉熵损失
(loss_i + loss_t)/2。
- 最大化正样本对相似度:图像特征
- 零样本分类
- 生成标签文本特征(如 "a photo of a dog"),与图像特征匹配。
- ImageNet零样本精度:76.2%(ViT-L/14)。
- 对比学习目标
-
Stable Diffusion 工作流
- 文本编码器
- CLIP Text Encoder将提示词映射为77×768语义向量。
- 扩散过程
- 50步迭代去噪:UNet预测噪声,调度器(如DDIM)控制步长。
- 隐空间尺寸:64×64×4(较像素空间节省64倍内存)。
- 控制生成
- 引导尺度(CFG=7.5)平衡文本语义与图像多样性。
- 文本编码器
**二、语言模型关键技术
-
Transformer 细节
- 多头注意力
- 解码器掩码
防止当前位置关注后续Token,确保自回归生成。
-
GPT训练三阶段
- 无监督预训练
使用WebText数据集(45TB),最大上下文长度8K。 - 有监督微调
Prompt设计示例:输入:"请用一句话描述春天" 输出:"春天是万物复苏的季节,花开草长,气候温暖。" - RLHF优化
- 奖励模型训练:人类标注10万条回答质量排序数据。
- PPO算法更新:KL散度约束防止策略偏离。
- 无监督预训练
**三、具身智能系统实践
-
ALOHA 机器人系统
- 硬件配置
- 双臂协同:2×6自由度机械臂 + 夹爪力控传感器。
- 视觉反馈:4路1080P相机(腕部/顶部/前方视角)。
- ACT算法
- Transformer预测动作块(chunk_size=10):
action = Transformer(obs_image, lang_instruction) - 50次演示数据可学会擦玻璃(成功率98%)。
- Transformer预测动作块(chunk_size=10):
- 硬件配置
-
视觉语言导航(VLN)
- 任务流程graph LR 自然语言指令-->3D场景重建-->路径规划-->动作执行
- 多模态输入
- 视觉:RGB-D相机生成点云地图。
- 语言:LLM解析“请到厨房拿杯子”中的目标对象和位置。
- 任务流程
**四、自监督与无监督前沿
-
DINO 自蒸馏
- 教师-学生框架
- 教师网络:动量更新
θ_t = 0.996 * θ_t + 0.004 * θ_s。 - 中心化特征:避免崩溃
g_teacher = (t - c) / τ_t。
- 教师网络:动量更新
- 特征可视化
- 最后一层Attention关注物体轮廓(如猫耳、车轮边界)。
- 教师-学生框架
-
VLA(Vision-Language-Action)模型
- 三模块架构
模块 功能 实现方案 视觉编码器 提取图像特征 ViT-B/16 世界模型 预测状态转移 s_{t+1}=f(s_t,a_t)Transformer 策略解码器 输出动作 a_tMLP + 高斯分布采样
- 三模块架构
总结
- 技术趋势:视觉-语言大模型(如CLIP、DINO)成为基础组件,支撑生成式AI(扩散模型)和具身智能(VLA)。
- 关键突破:
- ViT证明纯Transformer处理图像的可行性;
- ALOHA实现低成本机器人复杂操作(<5千美元硬件);
- Stable Diffusion降低高分辨率生成计算需求100倍。
- 实践建议:
- 视觉任务:优先采用ViT+对比学习预训练;
- 具身智能:结合LLM指令解析与3D视觉建图;
- 资源限制场景:使用Stable Diffusion+LoRA微调。
文档索引:
- ViT架构细节(文档1/7)
- CLIP训练流程(文档2)
- 扩散模型数学推导(文档3)
- ALOHA硬件设计(文档11)
- DINO防崩溃策略(文档8)
技术图示
graph TD
A[输入图像] --> B(ViT Patch分割)
B --> C{Transformer编码器}
C --> D[CLS Token分类]
C --> E[特征可视化]

浙公网安备 33010602011771号