【阅读笔记】基于双因果/非因果自注意力的流式端到端语音识别结构梳理
Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition
技术路线
-
序列复制
在第一个编码器块中,将输入特征序列\(X0\)简单复制成两份,来派生因果序列Xc0和非因果序列\(Xnc0\)
-
并行处理
两个序列并行地经过Recursive equence-to-Sequence(RSA)处理
- 用递归的方式处理序列
- 一个使用零向前帧的因果RSA
- 另一个使用固定数量的向前帧的非因果RSA
-
特征提取
两份序列分别提取出一些关键特征
DCN首先将因果和非因果输入帧转换为因果和非因果关键、值和查询帧
-
在输出端
非因果编码器序列XncE被传递到CTC和解码器分支
因果序列XcE被丢弃(相较于非因果序列,是冗余信息)
-
解码
使用了触发式注意力(TA)技术
通过利用CTC的对齐属性,实现了基于帧同步解码的编码器-解码器模型的ASR系统
-
系统架构
使用了transformer and conformer变压器和适应器架构
展示了对E2E ASR系统的联合CTC/注意力应用
核心技术思想
1.Dual Causal/Non-Causal Self-Attention双因果/非因果自注意力
- 提供过去、未来的信息,使模型更好的理解音频
- 两种自注意力
- 确保模型不会使用超出注意力上下文之外的信息,避免了接受字段的无限扩展和延迟问题
- 因果自注意力
- 在处理序列时,只考虑当前元素和之前元素之间的关系
- 这符合语音信号的因果性
- 非因果自注意力
- 在处理序列时,可以同时考虑当前元素、之前、之后的元素之间的关系
- 利用未来的上下文信息辅助当前位置的预测
- 这有助于模型更好地捕捉长距离的依赖关系
2.Triggered Attention触发式注意力
- 利用DCN提供的信息进行流式解码
- 传统的基于注意力的解码器
- 对输入序列进行一次完整的注意力计算才能产出一个字符
- 帧同步解码
- 解码器都利用CTC的对齐信息,聚焦于输入帧的部分
- 实现输入一帧之后,立即产生对应的输出字符
3.connectionist temporal classification (CTC)连接主义时间分类
- 无需显式对齐输入、输出序列
- 直接将输入序列映射到输出序列
- 实现端到端的运算
- 适应不同长度的音频,利于流式处理

浙公网安备 33010602011771号