随笔分类 - 语音识别
摘要:Robust Speech Recognition via Large-Scale Weak Supervision 介绍 大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练(无监督的数据容易收集,所以通过大量无监督的学习可以训练出一个质量较好的encoder)。但是用的时候还需要找一些有监
        阅读全文
            
摘要:摘要 语言表示学习的自监督方法受到三个独特问题的挑战: 每个输入话语中都有多个声音单元在预训练阶段,没有输入声音单元的词典(没有单独的字符或离散的单词输入)声音单元具有可变长度,没有明确的分段 为了解决这些问题,提出了hidden-unit BERT(HuBERT)。 HuBERT使用聚类的方式为B
        阅读全文
            
摘要:LAS LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。 输入声学特征向量,提取信息、消除噪声,输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN,再用RN
        阅读全文
            
摘要:LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。 输入声学特征向量,提取信息、消除噪声,输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN,再用RNN 还有
        阅读全文
            
                    
                
浙公网安备 33010602011771号