【阅读笔记】基于双因果/非因果自注意力的流式端到端语音识别结构梳理

Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech Recognition

基于双因果/非因果自注意力的流式端到端语音识别

技术路线

序列复制

在第一个编码器块中，将输入特征序列\(X0\)简单复制成两份，来派生因果序列Xc0和非因果序列\(Xnc0\)
并行处理

两个序列并行地经过Recursive equence-to-Sequence（RSA）处理
- 用递归的方式处理序列
- 一个使用零向前帧的因果RSA
- 另一个使用固定数量的向前帧的非因果RSA
特征提取

两份序列分别提取出一些关键特征

DCN首先将因果和非因果输入帧转换为因果和非因果关键、值和查询帧
在输出端

非因果编码器序列XncE被传递到CTC和解码器分支

因果序列XcE被丢弃（相较于非因果序列，是冗余信息）
解码

使用了触发式注意力（TA）技术

通过利用CTC的对齐属性，实现了基于帧同步解码的编码器-解码器模型的ASR系统
系统架构

使用了transformer and conformer变压器和适应器架构

展示了对E2E ASR系统的联合CTC/注意力应用

核心技术思想

1.Dual Causal/Non-Causal Self-Attention双因果/非因果自注意力

提供过去、未来的信息，使模型更好的理解音频
两种自注意力
- 确保模型不会使用超出注意力上下文之外的信息，避免了接受字段的无限扩展和延迟问题
- 因果自注意力
  - 在处理序列时，只考虑当前元素和之前元素之间的关系
  - 这符合语音信号的因果性
- 非因果自注意力
  - 在处理序列时，可以同时考虑当前元素、之前、之后的元素之间的关系
  - 利用未来的上下文信息辅助当前位置的预测
  - 这有助于模型更好地捕捉长距离的依赖关系

2.Triggered Attention触发式注意力

利用DCN提供的信息进行流式解码
传统的基于注意力的解码器
- 对输入序列进行一次完整的注意力计算才能产出一个字符
帧同步解码
- 解码器都利用CTC的对齐信息，聚焦于输入帧的部分
- 实现输入一帧之后，立即产生对应的输出字符

3.connectionist temporal classification (CTC)连接主义时间分类

无需显式对齐输入、输出序列
直接将输入序列映射到输出序列
实现端到端的运算
适应不同长度的音频，利于流式处理

posted @ 2024-08-23 17:31 W-enzy 阅读(94) 评论(0) 收藏举报

刷新页面返回顶部