【阅读笔记】基于双因果/非因果自注意力的流式端到端语音识别结构梳理

Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition

基于双因果/非因果自注意力的流式端到端语音识别

技术路线

  1. 序列复制

    在第一个编码器块中,将输入特征序列\(X0\)简单复制成两份,来派生因果序列Xc0和非因果序列\(Xnc0\)

  2. 并行处理

    两个序列并行地经过Recursive equence-to-Sequence(RSA)处理

    • 用递归的方式处理序列
    • 一个使用零向前帧的因果RSA
    • 另一个使用固定数量的向前帧的非因果RSA
  3. 特征提取

    两份序列分别提取出一些关键特征

    DCN首先将因果和非因果输入帧转换为因果和非因果关键、值和查询帧

  4. 在输出端

    非因果编码器序列XncE被传递到CTC和解码器分支

    因果序列XcE被丢弃(相较于非因果序列,是冗余信息)

  5. 解码

    使用了触发式注意力(TA)技术

    通过利用CTC的对齐属性,实现了基于帧同步解码的编码器-解码器模型的ASR系统

  6. 系统架构

    使用了transformer and conformer变压器和适应器架构

    展示了对E2E ASR系统的联合CTC/注意力应用

核心技术思想

1.Dual Causal/Non-Causal Self-Attention双因果/非因果自注意力

  • 提供过去、未来的信息,使模型更好的理解音频
  • 两种自注意力
    • 确保模型不会使用超出注意力上下文之外的信息,避免了接受字段的无限扩展和延迟问题
    • 因果自注意力
      • 在处理序列时,只考虑当前元素和之前元素之间的关系
      • 这符合语音信号的因果性
    • 非因果自注意力
      • 在处理序列时,可以同时考虑当前元素、之前、之后的元素之间的关系
      • 利用未来的上下文信息辅助当前位置的预测
      • 这有助于模型更好地捕捉长距离的依赖关系

2.Triggered Attention触发式注意力

  • 利用DCN提供的信息进行流式解码
  • 传统的基于注意力的解码器
    • 对输入序列进行一次完整的注意力计算才能产出一个字符
  • 帧同步解码
    • 解码器都利用CTC的对齐信息,聚焦于输入帧的部分
    • 实现输入一帧之后,立即产生对应的输出字符

3.connectionist temporal classification (CTC)连接主义时间分类

  • 无需显式对齐输入、输出序列
  • 直接将输入序列映射到输出序列
  • 实现端到端的运算
  • 适应不同长度的音频,利于流式处理
posted @ 2024-08-23 17:31  W-enzy  阅读(94)  评论(0)    收藏  举报