随笔分类 - ML
摘要:语音信号处理要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换,但傅里叶变换要求输入信号是平稳的,而语音在宏观上来看是不平稳的(波形很不均匀)。语音信号特征是随时间变化而变化的,是一个非平稳的随机过程。但从微观上看,虽然语音信号具有时变特征,但在一个短时间内其特征
阅读全文
摘要:CTC全称,Connectionist temporal classification,可以理解为基于神经网络的时序类分类。语音识别中声学模型的训练属于监督学习,需要知道每一帧对应的label才能进行有效的训练,在训练的数据准备阶段必须要对语音进行强制对齐。对于语音的一帧数据,很难给出一个label
阅读全文
摘要:矢量量化(VQ,Vector Quantization)是一种极其重要的信号压缩方法。VQ在语音信号处理中占十分重要的地位。广泛应用于语音编码、语音识别和语音合成等领域。VQ是一种基于块编码规则的有损数据压缩方法。在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ的应用。它的基本思想是:将
阅读全文
摘要:一,传统语音识别体系结构 二,MFCC特征提取 MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。主
阅读全文
摘要:NLP问题如果要转化为机器学习问题,第一步是要找一种方法把这些符号数学化。 有两种常见的表示方法: One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。例如[0,0,0
阅读全文
摘要:这几天在安装TensorFlow,看了很多教程,方法也试了几种。 最后还是用pip安装成功的,过程如下。 1.安装ubuntu后在 系统设置-软件与更新-附加驱动 里,更新N卡驱动。 (N卡官网下载run格式驱动手动安装比较麻烦,需要关闭X server,并禁止系统自带的开源驱动) 按照提示,重启。
阅读全文

浙公网安备 33010602011771号