心胸决定格局,眼界决定境界...

随笔分类 -  从零开始学kaldi

摘要:这次wer由15%下降到0%了,后面跑更多的模型 LOG (apply-cmvn[5.2.124~1396-70748]:main():apply-cmvn.cc:162) Applied cepstral mean normalization to 20 utterances, errors on 阅读全文
posted @ 2017-10-13 11:28 WELEN 阅读(2763) 评论(0) 推荐(0) 编辑
摘要:基本模型没有变化,主要是调参,配置: %WER 65% 下降到了 15% 后面再继续优化... Graph compilation finish!steps/decode.sh --nj 1 --cmd utils/run.pl exp/mono0/graph_tgpr data/waves_tes 阅读全文
posted @ 2017-09-29 16:31 WELEN 阅读(2391) 评论(0) 推荐(0) 编辑
摘要:train_mono.sh prepare_lang.sh run.sh 阅读全文
posted @ 2017-09-29 16:27 WELEN 阅读(2847) 评论(0) 推荐(0) 编辑
摘要:http://blog.csdn.net/u013677156/article/details/77893661 1、kaldi解码过程 kaldi识别解码一段语音的过程是:首先提取特征,然后过声学模型AM,然后过解码网络HCLG.fst,最后输出识别结果。 HCLG是解码时的重要组成部分。HCLG 阅读全文
posted @ 2017-09-29 15:38 WELEN 阅读(4051) 评论(0) 推荐(1) 编辑
摘要:孤立词参考的例子就是yes/no脚本。 这里我们做10个词识别实验,熟悉整条链路。 后续尝试一些新的模型提高识别率; 再尝试模型语速、语调、平稳噪声的鲁棒性,尝试已有去噪处理算法的优化前端; 扩大孤立词的数量,裁剪模型,效率优化,熟悉FST解码器,将嵌入式硬件的孤立词识别能做到实用层面。 最后做连续 阅读全文
posted @ 2017-09-26 15:53 WELEN 阅读(5197) 评论(3) 推荐(0) 编辑
摘要:SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语 阅读全文
posted @ 2017-09-25 18:15 WELEN 阅读(13307) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/xmdxcsj/article/details/54695506 overview Karel’s DNN和Dan’s DNN格式不兼容,可以使用egs/rm/s5/local/run_dnn_convert_nnet2.sh进行格式转化。 nnet1 阅读全文
posted @ 2017-09-22 10:08 WELEN 阅读(3329) 评论(0) 推荐(0) 编辑
摘要:作者:zqh_zy链接:http://www.jianshu.com/p/c5fb943afaba來源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本文通过简单kaldi源码,分析DNN训练声学模型时神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-HMM训 阅读全文
posted @ 2017-09-21 11:34 WELEN 阅读(5092) 评论(0) 推荐(2) 编辑
摘要:转自: http://www.jianshu.com/p/5b19605792ab?utm_campaign=maleskine&utm_content=note&utm_medium=pc_all_hots&utm_source=recommendation http://www.jianshu. 阅读全文
posted @ 2017-09-21 11:26 WELEN 阅读(3291) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/inger_h/article/details/52789339 在已经训练好模型的情况下,需要针对一个新任务做在线识别应该怎么做呢? 一种情况是,用已有的声学模型和新训练的语言模型。 语言模型可以同srilm等工具训练,但是怎样将语言模型与DNN声学 阅读全文
posted @ 2017-09-21 10:49 WELEN 阅读(3641) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/huchad/article/details/52092796 使用kaldi的DNN做音频分类,异常声音检测。 HMM/GMM -》 HMM/DNN 基本上沿用语音识别的思路,有两点注意一下即可。 1. 在训HMM/GMM时,训到monophone即 阅读全文
posted @ 2017-09-21 10:47 WELEN 阅读(1625) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/zjm750617105/article/details/55211992 对于每个类别的GMM有几种思路: 第一是将所有训练数据按类别分开,每类的数据训练一个GMM模型 第二是将所有的数据训练一个UBM模型,然后将训练数据按类别分开,用MAP去训练每 阅读全文
posted @ 2017-09-21 10:40 WELEN 阅读(1977) 评论(0) 推荐(0) 编辑
摘要:参考:https://zhuanlan.zhihu.com/p/24979135?refer=ycgkk 阅读全文
posted @ 2017-09-19 17:42 WELEN 阅读(1429) 评论(0) 推荐(0) 编辑
摘要:运行getdata.sh,下载voxforge语音库 修改cmd.sh queue.pl为run.pl. install_srilm.sh 执行该脚本 按照网址下载srilm.tgz,然后运行install_srilm.sh 提示安装 sudo ./install_sequitur.sh sudo 阅读全文
posted @ 2017-09-19 11:04 WELEN 阅读(1966) 评论(0) 推荐(0) 编辑
摘要:转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie 阅读全文
posted @ 2017-09-18 17:50 WELEN 阅读(4219) 评论(0) 推荐(0) 编辑
摘要:首先,thchs30有两种数据库,kaldi运行的数据库最好是 thchs30-openslr。 修改run.sh里面的语音库路径 thchs30=... 修改nj线程数 等于CPU的核心数 修改cmd.sh queue.pl 改为run.pl本地机器跑 运行出现错误: lexicon.txt验证出 阅读全文
posted @ 2017-09-18 15:10 WELEN 阅读(6898) 评论(0) 推荐(0) 编辑
摘要:============================================================================ MMI + SGMM2 Training & Decoding ===============================================... 阅读全文
posted @ 2017-09-15 17:59 WELEN 阅读(1865) 评论(0) 推荐(0) 编辑
摘要:steps/diagnostic/analyze_alignments.sh --cmd run.pl --mem 4G data/lang exp/monosteps/diagnostic/analyze_alignments.sh: see stats in exp/mono/log/analy 阅读全文
posted @ 2017-09-15 12:09 WELEN 阅读(1424) 评论(0) 推荐(0) 编辑
摘要:TIMIT语音库是IT和MIT合作音素级别标注的语音库,用于自动语音识别系统的发展和评估,包括来自美式英语,8个地区方言,630个人。 每个人读10个句子,每个发音都是音素级别、词级别文本标注,16kHz,16bit。 注意:不用使用TIMIT配置作为运行Kaldi的一个通用型例子,因为它不是一个非 阅读全文
posted @ 2017-09-15 11:40 WELEN 阅读(4922) 评论(0) 推荐(0) 编辑
摘要:steps/decode.sh 阅读全文
posted @ 2017-09-14 17:31 WELEN 阅读(2368) 评论(0) 推荐(0) 编辑