神经网络与深度学习学习笔记(四)

一、视觉模型深度解析

  1. Vision Transformer (ViT)

    • Patch处理
      • 输入图像(224×224)分割为196个16×16 Patch,线性投影为768维向量。
      • 添加类别Token([class])和位置编码(一维正弦函数):
        PE_{(pos,2i)} = \sin(pos/10000^{2i/d}), \quad PE_{(pos,2i+1)} = \cos(pos/10000^{2i/d})  
        
    • Transformer编码器
      • 12层结构(ViT-Base),每层含多头自注意力(12头)+ MLP(3072维)。
      • LayerNorm置于残差连接前(与原始Transformer不同)。
    • 性能对比
      模型 ImageNet精度 预训练数据量
      ViT-H/14 88.55% JFT-300M
      BiT-L (ResNet) 87.54% JFT-300M
  2. CLIP:图文对齐模型

    • 对比学习目标
      • 最大化正样本对相似度:图像特征 I_e 与文本特征 T_e 的余弦相似度。
      • 损失函数:对称交叉熵损失 (loss_i + loss_t)/2
    • 零样本分类
      • 生成标签文本特征(如 "a photo of a dog"),与图像特征匹配。
      • ImageNet零样本精度:76.2%(ViT-L/14)。
  3. Stable Diffusion 工作流

    • 文本编码器
      • CLIP Text Encoder将提示词映射为77×768语义向量。
    • 扩散过程
      • 50步迭代去噪:UNet预测噪声,调度器(如DDIM)控制步长。
      • 隐空间尺寸:64×64×4(较像素空间节省64倍内存)。
    • 控制生成
      • 引导尺度(CFG=7.5)平衡文本语义与图像多样性。

**二、语言模型关键技术

  1. Transformer 细节

    • 多头注意力
    • 解码器掩码
      防止当前位置关注后续Token,确保自回归生成。
  2. GPT训练三阶段

    • 无监督预训练
      使用WebText数据集(45TB),最大上下文长度8K。
    • 有监督微调
      Prompt设计示例:
      输入:"请用一句话描述春天"  
      输出:"春天是万物复苏的季节,花开草长,气候温暖。"  
      
    • RLHF优化
      • 奖励模型训练:人类标注10万条回答质量排序数据。
      • PPO算法更新:KL散度约束防止策略偏离。

**三、具身智能系统实践

  1. ALOHA 机器人系统

    • 硬件配置
      • 双臂协同:2×6自由度机械臂 + 夹爪力控传感器。
      • 视觉反馈:4路1080P相机(腕部/顶部/前方视角)。
    • ACT算法
      • Transformer预测动作块(chunk_size=10):
        action = Transformer(obs_image, lang_instruction)  
        
      • 50次演示数据可学会擦玻璃(成功率98%)。
  2. 视觉语言导航(VLN)

    • 任务流程
      graph LR 自然语言指令-->3D场景重建-->路径规划-->动作执行
    • 多模态输入
      • 视觉:RGB-D相机生成点云地图。
      • 语言:LLM解析“请到厨房拿杯子”中的目标对象和位置。

**四、自监督与无监督前沿

  1. DINO 自蒸馏

    • 教师-学生框架
      • 教师网络:动量更新 θ_t = 0.996 * θ_t + 0.004 * θ_s
      • 中心化特征:避免崩溃 g_teacher = (t - c) / τ_t
    • 特征可视化
      • 最后一层Attention关注物体轮廓(如猫耳、车轮边界)。
  2. VLA(Vision-Language-Action)模型

    • 三模块架构
      模块 功能 实现方案
      视觉编码器 提取图像特征 ViT-B/16
      世界模型 预测状态转移 s_{t+1}=f(s_t,a_t) Transformer
      策略解码器 输出动作 a_t MLP + 高斯分布采样

总结

  • 技术趋势:视觉-语言大模型(如CLIP、DINO)成为基础组件,支撑生成式AI(扩散模型)和具身智能(VLA)。
  • 关键突破
    • ViT证明纯Transformer处理图像的可行性;
    • ALOHA实现低成本机器人复杂操作(<5千美元硬件);
    • Stable Diffusion降低高分辨率生成计算需求100倍。
  • 实践建议
    1. 视觉任务:优先采用ViT+对比学习预训练;
    2. 具身智能:结合LLM指令解析与3D视觉建图;
    3. 资源限制场景:使用Stable Diffusion+LoRA微调。

文档索引

  1. ViT架构细节(文档1/7)
  2. CLIP训练流程(文档2)
  3. 扩散模型数学推导(文档3)
  4. ALOHA硬件设计(文档11)
  5. DINO防崩溃策略(文档8)

技术图示

graph TD A[输入图像] --> B(ViT Patch分割) B --> C{Transformer编码器} C --> D[CLS Token分类] C --> E[特征可视化]
posted @ 2025-06-16 15:30  Xu_9  阅读(27)  评论(0)    收藏  举报