随笔分类 -  语音识别

摘要:Robust Speech Recognition via Large-Scale Weak Supervision 介绍 大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练(无监督的数据容易收集,所以通过大量无监督的学习可以训练出一个质量较好的encoder)。但是用的时候还需要找一些有监 阅读全文
posted @ 2022-12-30 13:49 ︶ㄣ演戲ㄣ 阅读(97) 评论(0) 推荐(0)
摘要:摘要 语言表示学习的自监督方法受到三个独特问题的挑战: 每个输入话语中都有多个声音单元在预训练阶段,没有输入声音单元的词典(没有单独的字符或离散的单词输入)声音单元具有可变长度,没有明确的分段 为了解决这些问题,提出了hidden-unit BERT(HuBERT)。 HuBERT使用聚类的方式为B 阅读全文
posted @ 2022-12-30 11:14 ︶ㄣ演戲ㄣ 阅读(309) 评论(0) 推荐(0)
摘要:LAS LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。 输入声学特征向量,提取信息、消除噪声,输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN,再用RN 阅读全文
posted @ 2022-12-02 18:22 ︶ㄣ演戲ㄣ 阅读(147) 评论(0) 推荐(0)
摘要:LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。 输入声学特征向量,提取信息、消除噪声,输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN,再用RNN 还有 阅读全文
posted @ 2022-11-28 13:56 ︶ㄣ演戲ㄣ 阅读(29) 评论(0) 推荐(0)