2019年5月13日
摘要: 在这篇文章中,强调GCNN对噪声数据的稳健性,提出这一方法的初衷,与在特征层面上进行失配补偿的方法异曲同工,希望通过提取对噪声更加鲁棒的特征缓解数据之间的失配问题。 Abstract 在之前的研究当中,通过多层神经网络提取语音信号当中的声学特征信息。虽然这种方法取得了一定的效果,但是,在测试集和训练 阅读全文
posted @ 2019-05-13 15:13 BuildDream 阅读(704) 评论(0) 推荐(0) 编辑
  2019年5月8日
摘要: ```python def stft(y, n_fft=2048, hop_length=None, win_length=None, window='hann', center=True, dtype=np.complex64, pad_mode='reflect'): """Short time 阅读全文
posted @ 2019-05-08 16:47 BuildDream 阅读(6828) 评论(0) 推荐(0) 编辑
  2019年5月5日
摘要: 本文主要对该论文中的关键点进行总结和梳理,不完全翻译整篇文章。 摘要 DNN的主要优势就是不需要人工提取语音信号当中的特征。 因此,我们在DNN的底部(输入部分)加上了一个pseudo filterbank层,并且通过联合训练,对该层的参数和网络其他层的参数进行训练。 在现有的其他基于DNN的网络当 阅读全文
posted @ 2019-05-05 17:17 BuildDream 阅读(707) 评论(0) 推荐(0) 编辑
  2019年5月4日
摘要: 说话人识别领域的研究所面临的挑战 背景噪声问题,跨信道问题,多说话人分割聚类,多模态识别,短语音问题,语音的长时变换问题,耳语音以及其他各种实际应用环境下的鲁棒性问题等。 说话人识别技术研究的核心是解决训练与测试之间的失配问题,这种失配也称作会话变异(Session Variability) 导致训 阅读全文
posted @ 2019-05-04 15:48 BuildDream 阅读(4962) 评论(1) 推荐(1) 编辑
  2019年4月26日
摘要: 3. Neural network architecture 此处描述了在本文当中所使用的网络结构,和所提取的关键特征(key features)。首先,描述了两个新型的网络结构:the network in network nonlinearity和the statistics extractio 阅读全文
posted @ 2019-04-26 21:33 BuildDream 阅读(313) 评论(0) 推荐(0) 编辑
  2019年4月10日
摘要: 本文内容均翻译自这篇博文:(该博主的相关文章都比较好,感兴趣的可以自行学习) "Voice Activity Detection(VAD) Tutorial" 语音端点检测一般用于鉴别音频信号当中的语音出现(speech presence)和语音消失(speech absence)。这里将提供一个简 阅读全文
posted @ 2019-04-10 15:51 BuildDream 阅读(17431) 评论(0) 推荐(0) 编辑
  2019年4月9日
摘要: "说话人识别/声纹识别的研究综述" 这篇博文对部分概念具有较为清晰的解释。 "声纹识别之PLDA算法描述" 阅读全文
posted @ 2019-04-09 20:11 BuildDream 阅读(828) 评论(0) 推荐(0) 编辑
摘要: 倒谱是表示一帧语音数据特征的一个序列。从periodogram estimate of the power spectrum计算得到的倒谱系数,可以用于基音追踪(pitch tracking),然而,从AR power spectral estimate计算得到的倒谱系数可以用于语音识别(现在已经被 阅读全文
posted @ 2019-04-09 13:58 BuildDream 阅读(9623) 评论(0) 推荐(0) 编辑
  2019年4月3日
摘要: 2.Related works to filterbank learning 虽然DNN-HMM模型的性能比GMM-HMM模型相比,具有很大的优势,但是训练集和测试集之间的失配问题,也使得DNN-HMM模型的性能受到很大的影响。为了解决这一问题,人们为基于DNN的声学模型提出了很多的自适应方法。filterbanks的学习可以使用一些自适应方法进行近似,虽然两者之间的expressiveness和... 阅读全文
posted @ 2019-04-03 15:37 BuildDream 阅读(254) 评论(0) 推荐(0) 编辑
  2019年2月21日
摘要: 首先,转换sph2pipe工具所在文件夹(此工具为LDC所提供的SPHERE音频文件转换工具) 其次:在命令行进行音频文件转换测试: 此处需要注意的是,sph2pipe可执行文件不再PATH当中,所以需要当前路径下的完全路径,即:./sph2pipe才可以运行,而非sph2pipe。 1.由批处理p 阅读全文
posted @ 2019-02-21 16:44 BuildDream 阅读(1183) 评论(0) 推荐(0) 编辑