07 2020 档案

摘要:Hidden Markov Model (HMM) 以前语音识别用的是统计模型,而现在,深度学习的方法有很多思想也还是借鉴的HMM。 X是输入语音序列,Y是输出文字,我们的目标是穷举所有可能的Y,找到一个$Y*$使得$P(Y|X)$最大化。这个过程叫作解码。 根据贝叶斯定律,我们可以把它变成$\fr 阅读全文
posted @ 2020-07-08 17:08 Yanqiang 阅读(940) 评论(0) 推荐(0)
摘要:Connectionist Temporal Classification (CTC) CTC可以用于线上实时地语音识别,编码器用的是单向的RNN,解码是用MLP来预测文字分布。 编码器将语音输入$xi$编码成$hi$,MLP再对它乘上一个权重,接上Softmax,得到词表V大小的概率分布。 但有时 阅读全文
posted @ 2020-07-08 15:28 Yanqiang 阅读(2094) 评论(0) 推荐(0)
摘要:语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的。 seq2seq的模型主要有LAS,CTC,RNN-T,Neural Transducer,MoChA。 本节讲最流行的LAS,就是Listen,Atten,and Spell,典型的seq2seq+atten 阅读全文
posted @ 2020-07-06 20:14 Yanqiang 阅读(1946) 评论(0) 推荐(0)
摘要:语音识别中声音和文字的表示 声音:通常表示为一个d维、长度为T的向量序列, 文字:表示为长度为N的token序列(token的共V类),token通常用它在词表中id表示。 token通常有很多种粒度:Bytes < Grapheme/Phoneme < Morpheme < Word Phonem 阅读全文
posted @ 2020-07-06 16:56 Yanqiang 阅读(1033) 评论(0) 推荐(0)
摘要:课程名称:深度学习与人类语言处理(Deep Learning for Human Language Processing) (自然语言包括文本和语音两种形式,不过自然语言处理大多时候指的是文本处理,所以这门课的名字叫人类语言处理以便区分,因为这门课语音和文本的内容是1:1的) 人类语言处理的终极目标 阅读全文
posted @ 2020-07-06 11:10 Yanqiang 阅读(1303) 评论(0) 推荐(1)