语音识别 - 随笔分类 - ︶ㄣ演戲ㄣ

whisper

摘要：Robust Speech Recognition via Large-Scale Weak Supervision 介绍大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练（无监督的数据容易收集，所以通过大量无监督的学习可以训练出一个质量较好的encoder）。但是用的时候还需要找一些有监阅读全文

posted @ 2022-12-30 13:49 ︶ㄣ演戲ㄣ阅读(97) 评论(0) 推荐(0)

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

摘要：摘要语言表示学习的自监督方法受到三个独特问题的挑战：每个输入话语中都有多个声音单元在预训练阶段，没有输入声音单元的词典（没有单独的字符或离散的单词输入）声音单元具有可变长度，没有明确的分段为了解决这些问题，提出了hidden-unit BERT（HuBERT）。 HuBERT使用聚类的方式为B 阅读全文

posted @ 2022-12-30 11:14 ︶ㄣ演戲ㄣ阅读(309) 评论(0) 推荐(0)

LAS、CTC、RNN-T、NT、MoChA

摘要：LAS LAS是一个做语音识别的经典seq2seq模型，主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。输入声学特征向量，提取信息、消除噪声，输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN，再用RN 阅读全文

posted @ 2022-12-02 18:22 ︶ㄣ演戲ㄣ阅读(147) 评论(0) 推荐(0)

Listen、Attention、Spell模型

摘要：LAS是一个做语音识别的经典seq2seq模型，主要分为三个部分Listen、Attention、Spell Listen Listen部分就是一个encoder。输入声学特征向量，提取信息、消除噪声，输出向量。 encoder可以是RNN 也可以是CNN。比较常见的是先用CNN，再用RNN 还有阅读全文

posted @ 2022-11-28 13:56 ︶ㄣ演戲ㄣ阅读(29) 评论(0) 推荐(0)

随笔分类 - 语音识别