心胸决定格局,眼界决定境界...

摘要:实时语音通信发展到今天,用户对通话语音质量提出了越来越高的要求。由于终端设备的多样性以及使用场景的差异,声音问题依然存在。传统的音频处理技术从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型,很多参数都需要人工进行精细化微调,比较费时费力。随着AI技术的发展,凭借着其强大的拟合能力,利用数据 阅读全文
posted @ 2019-03-14 14:28 WELEN 阅读 (1880) 评论 (0) 编辑
摘要:噪声问题一直是语音识别的一个老大难的问题,在理想的实验室的环境下,识别效果已经非常好了,之前听很多音频算法工程师抱怨,在给识别做降噪时,经常发现WER不降反升,降低了识别率,有点莫名其妙,又无处下手。 刚好,前段时间调到了AIlab部门,有机会接触这块,改善语音识别的噪声问题,虽然在此之前,询问过同 阅读全文
posted @ 2019-03-13 16:32 WELEN 阅读 (1976) 评论 (0) 编辑
摘要:实时语音通信发展到今天,用户对通话语音质量提出了越来越高的要求。由于终端设备的多样性以及使用场景的差异,声音问题依然存在。传统的音频处理技术从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型,很多参数都需要人工进行精细化微调,比较费时费力。随着AI技术的发展,凭借着其强大的拟合能力,利用数据 阅读全文
posted @ 2019-03-14 14:28 WELEN 阅读 (1880) 评论 (0) 编辑
摘要:噪声问题一直是语音识别的一个老大难的问题,在理想的实验室的环境下,识别效果已经非常好了,之前听很多音频算法工程师抱怨,在给识别做降噪时,经常发现WER不降反升,降低了识别率,有点莫名其妙,又无处下手。 刚好,前段时间调到了AIlab部门,有机会接触这块,改善语音识别的噪声问题,虽然在此之前,询问过同 阅读全文
posted @ 2019-03-13 16:32 WELEN 阅读 (1975) 评论 (0) 编辑
正文内容加载中...
posted @ 2017-11-18 09:50 WELEN 阅读 (6) 评论 (0) 编辑
摘要:这次wer由15%下降到0%了,后面跑更多的模型 LOG (apply-cmvn[5.2.124~1396-70748]:main():apply-cmvn.cc:162) Applied cepstral mean normalization to 20 utterances, errors on 阅读全文
posted @ 2017-10-13 11:28 WELEN 阅读 (1909) 评论 (0) 编辑
摘要:基本模型没有变化,主要是调参,配置: %WER 65% 下降到了 15% 后面再继续优化... Graph compilation finish!steps/decode.sh --nj 1 --cmd utils/run.pl exp/mono0/graph_tgpr data/waves_tes 阅读全文
posted @ 2017-09-29 16:31 WELEN 阅读 (1570) 评论 (0) 编辑
摘要:train_mono.sh prepare_lang.sh run.sh 阅读全文
posted @ 2017-09-29 16:27 WELEN 阅读 (1886) 评论 (0) 编辑
摘要:http://blog.csdn.net/u013677156/article/details/77893661 1、kaldi解码过程 kaldi识别解码一段语音的过程是:首先提取特征,然后过声学模型AM,然后过解码网络HCLG.fst,最后输出识别结果。 HCLG是解码时的重要组成部分。HCLG 阅读全文
posted @ 2017-09-29 15:38 WELEN 阅读 (1875) 评论 (0) 编辑
摘要:孤立词参考的例子就是yes/no脚本。 这里我们做10个词识别实验,熟悉整条链路。 后续尝试一些新的模型提高识别率; 再尝试模型语速、语调、平稳噪声的鲁棒性,尝试已有去噪处理算法的优化前端; 扩大孤立词的数量,裁剪模型,效率优化,熟悉FST解码器,将嵌入式硬件的孤立词识别能做到实用层面。 最后做连续 阅读全文
posted @ 2017-09-26 15:53 WELEN 阅读 (3614) 评论 (3) 编辑
摘要:SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语 阅读全文
posted @ 2017-09-25 18:15 WELEN 阅读 (6860) 评论 (0) 编辑
摘要:转自:http://blog.csdn.net/xmdxcsj/article/details/54695506 overview Karel’s DNN和Dan’s DNN格式不兼容,可以使用egs/rm/s5/local/run_dnn_convert_nnet2.sh进行格式转化。 nnet1 阅读全文
posted @ 2017-09-22 10:08 WELEN 阅读 (2140) 评论 (0) 编辑
摘要:作者:zqh_zy链接:http://www.jianshu.com/p/c5fb943afaba來源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本文通过简单kaldi源码,分析DNN训练声学模型时神经网络的输入与输出。在进行DNN训练之前需要用到之前GMM-HMM训 阅读全文
posted @ 2017-09-21 11:34 WELEN 阅读 (2657) 评论 (0) 编辑
摘要:转自: http://www.jianshu.com/p/5b19605792ab?utm_campaign=maleskine&utm_content=note&utm_medium=pc_all_hots&utm_source=recommendation http://www.jianshu. 阅读全文
posted @ 2017-09-21 11:26 WELEN 阅读 (2062) 评论 (0) 编辑
摘要:转自:http://blog.csdn.net/inger_h/article/details/52789339 在已经训练好模型的情况下,需要针对一个新任务做在线识别应该怎么做呢? 一种情况是,用已有的声学模型和新训练的语言模型。 语言模型可以同srilm等工具训练,但是怎样将语言模型与DNN声学 阅读全文
posted @ 2017-09-21 10:49 WELEN 阅读 (2185) 评论 (0) 编辑
摘要:转自:http://blog.csdn.net/huchad/article/details/52092796 使用kaldi的DNN做音频分类,异常声音检测。 HMM/GMM -》 HMM/DNN 基本上沿用语音识别的思路,有两点注意一下即可。 1. 在训HMM/GMM时,训到monophone即 阅读全文
posted @ 2017-09-21 10:47 WELEN 阅读 (737) 评论 (0) 编辑
摘要:转自:http://blog.csdn.net/zjm750617105/article/details/55211992 对于每个类别的GMM有几种思路: 第一是将所有训练数据按类别分开,每类的数据训练一个GMM模型 第二是将所有的数据训练一个UBM模型,然后将训练数据按类别分开,用MAP去训练每 阅读全文
posted @ 2017-09-21 10:40 WELEN 阅读 (1074) 评论 (0) 编辑
摘要:参考:https://zhuanlan.zhihu.com/p/24979135?refer=ycgkk 阅读全文
posted @ 2017-09-19 17:42 WELEN 阅读 (807) 评论 (0) 编辑
摘要:运行getdata.sh,下载voxforge语音库 修改cmd.sh queue.pl为run.pl. install_srilm.sh 执行该脚本 按照网址下载srilm.tgz,然后运行install_srilm.sh 提示安装 sudo ./install_sequitur.sh sudo 阅读全文
posted @ 2017-09-19 11:04 WELEN 阅读 (1001) 评论 (0) 编辑
摘要:转:http://ftli.farbox.com/post/kaldizhong-wen-shi-bie 阅读全文
posted @ 2017-09-18 17:50 WELEN 阅读 (2778) 评论 (0) 编辑
摘要:首先,thchs30有两种数据库,kaldi运行的数据库最好是 thchs30-openslr。 修改run.sh里面的语音库路径 thchs30=... 修改nj线程数 等于CPU的核心数 修改cmd.sh queue.pl 改为run.pl本地机器跑 运行出现错误: lexicon.txt验证出 阅读全文
posted @ 2017-09-18 15:10 WELEN 阅读 (5123) 评论 (0) 编辑
摘要:============================================================================ MMI + SGMM2 Training & Decoding ===============================================... 阅读全文
posted @ 2017-09-15 17:59 WELEN 阅读 (1150) 评论 (0) 编辑