BuildDream - 博客园

2019年5月13日

Robust CNN-based Speech Recognition With Gabor Filter Kernels

摘要：在这篇文章中，强调GCNN对噪声数据的稳健性，提出这一方法的初衷，与在特征层面上进行失配补偿的方法异曲同工，希望通过提取对噪声更加鲁棒的特征缓解数据之间的失配问题。 Abstract 在之前的研究当中，通过多层神经网络提取语音信号当中的声学特征信息。虽然这种方法取得了一定的效果，但是，在测试集和训练阅读全文

posted @ 2019-05-13 15:13 BuildDream 阅读(704) 评论(0) 推荐(0) 编辑

2019年5月8日

librosa语音库当中的STFT代码阅读（含注释）

摘要： ```python def stft(y, n_fft=2048, hop_length=None, win_length=None, window='hann', center=True, dtype=np.complex64, pad_mode='reflect'): """Short time 阅读全文

posted @ 2019-05-08 16:47 BuildDream 阅读(6828) 评论(0) 推荐(0) 编辑

2019年5月5日

A Deep Neural Network Integrated with FilterBank Learning for Speech Recognition

摘要：本文主要对该论文中的关键点进行总结和梳理，不完全翻译整篇文章。摘要 DNN的主要优势就是不需要人工提取语音信号当中的特征。因此，我们在DNN的底部（输入部分）加上了一个pseudo filterbank层，并且通过联合训练，对该层的参数和网络其他层的参数进行训练。在现有的其他基于DNN的网络当阅读全文

posted @ 2019-05-05 17:17 BuildDream 阅读(707) 评论(0) 推荐(0) 编辑

2019年5月4日

说话人识别相关基础知识整理（持续更新）

摘要：说话人识别领域的研究所面临的挑战背景噪声问题，跨信道问题，多说话人分割聚类，多模态识别，短语音问题，语音的长时变换问题，耳语音以及其他各种实际应用环境下的鲁棒性问题等。说话人识别技术研究的核心是解决训练与测试之间的失配问题，这种失配也称作会话变异（Session Variability）导致训阅读全文

posted @ 2019-05-04 15:48 BuildDream 阅读(4962) 评论(1) 推荐(1) 编辑

2019年4月26日

Acoustic modelling from the signal domain using CNNs

摘要： 3. Neural network architecture 此处描述了在本文当中所使用的网络结构，和所提取的关键特征（key features）。首先，描述了两个新型的网络结构：the network in network nonlinearity和the statistics extractio 阅读全文

posted @ 2019-04-26 21:33 BuildDream 阅读(313) 评论(0) 推荐(0) 编辑

2019年4月10日

语音端点检测（Voice Activity Detection,VAD）

摘要：本文内容均翻译自这篇博文：(该博主的相关文章都比较好，感兴趣的可以自行学习) "Voice Activity Detection(VAD) Tutorial" 语音端点检测一般用于鉴别音频信号当中的语音出现（speech presence）和语音消失（speech absence）。这里将提供一个简阅读全文

posted @ 2019-04-10 15:51 BuildDream 阅读(17431) 评论(0) 推荐(0) 编辑

2019年4月9日

说话人识别/声纹识别的研究综述（转）

摘要： "说话人识别/声纹识别的研究综述" 这篇博文对部分概念具有较为清晰的解释。 "声纹识别之PLDA算法描述" 阅读全文

posted @ 2019-04-09 20:11 BuildDream 阅读(828) 评论(0) 推荐(0) 编辑

倒谱（Cepstrum）和线性预测倒谱系数（LPCCs）

摘要：倒谱是表示一帧语音数据特征的一个序列。从periodogram estimate of the power spectrum计算得到的倒谱系数，可以用于基音追踪（pitch tracking），然而，从AR power spectral estimate计算得到的倒谱系数可以用于语音识别（现在已经被阅读全文

posted @ 2019-04-09 13:58 BuildDream 阅读(9623) 评论(0) 推荐(0) 编辑

2019年4月3日

受限filterbanks

摘要： 2.Related works to filterbank learning 虽然DNN-HMM模型的性能比GMM-HMM模型相比，具有很大的优势，但是训练集和测试集之间的失配问题，也使得DNN-HMM模型的性能受到很大的影响。为了解决这一问题，人们为基于DNN的声学模型提出了很多的自适应方法。filterbanks的学习可以使用一些自适应方法进行近似，虽然两者之间的expressiveness和... 阅读全文

posted @ 2019-04-03 15:37 BuildDream 阅读(254) 评论(0) 推荐(0) 编辑

2019年2月21日

对TIMIT数据进行格式转换（SPHERE2WAV（RIFF））

摘要：首先，转换sph2pipe工具所在文件夹（此工具为LDC所提供的SPHERE音频文件转换工具）其次:在命令行进行音频文件转换测试: 此处需要注意的是，sph2pipe可执行文件不再PATH当中，所以需要当前路径下的完全路径，即：./sph2pipe才可以运行，而非sph2pipe。 1.由批处理p 阅读全文

posted @ 2019-02-21 16:44 BuildDream 阅读(1183) 评论(0) 推荐(0) 编辑