随笔列表第2页 - davidtym

webRTC中语音降噪模块ANS细节详解(三)

摘要：上篇(webRTC中语音降噪模块ANS细节详解(二) )讲了ANS的处理流程和语音在时域和频域的相互转换。本篇开始讲语音降噪的核心部分，首先讲噪声的初始估计以及基于估计出来的噪声算先验信噪比和后验信噪比。 1，初始噪声估计 webRTC中ANS的初始噪声估计用的是分位数噪声估计法（QBNE，Quan 阅读全文

posted @ 2021-11-02 08:09 davidtym 阅读(3814) 评论(10) 推荐(0) 编辑

webRTC中语音降噪模块ANS细节详解(二)

摘要：上篇(webRTC中语音降噪模块ANS细节详解(一))讲了维纳滤波的基本原理。本篇先给出webRTC中ANS的基本处理过程，然后讲其中两步（即时域转频域和频域转时域）中的一些处理细节。 ANS的基本处理过程如下图1：图1 从图1可以看出，处理过程主要分6步，具体如下： 1）把输入的带噪信号从时域阅读全文

posted @ 2021-10-22 08:10 davidtym 阅读(3230) 评论(8) 推荐(0) 编辑

webRTC中语音降噪模块ANS细节详解(一)

摘要： ANS(adaptive noise suppression) 是webRTC中音频相关的核心模块之一，为众多公司所使用。从2015年开始，我在几个产品中使用了webRTC的3A(AEC/ANS/AGC)模块。以前仅仅是使用，对其中的算法原理只是初步了解。近半年来，我利用业余时间在看着《语音增强：理阅读全文

posted @ 2021-10-11 08:09 davidtym 阅读(4275) 评论(2) 推荐(4) 编辑

基于混合模型的语音降噪效果提升

摘要：上篇文章（基于混合模型的语音降噪实践）实践了基于混合模型的算法来做语音降噪，有了一定的降噪效果。本篇说说怎么样来提升降噪效果。算法里会算每个音素的高斯模型参数，也会建一个音素分类的神经网络模型。这些都是依赖于音素对齐的，音素对齐做的越好，每个音素的高斯模型越准确，音素分类模型越收敛准确率越高，从而阅读全文

posted @ 2021-07-19 08:03 davidtym 阅读(1078) 评论(0) 推荐(0) 编辑

基于混合模型的语音降噪实践

摘要：前面的文章（语音降噪论文“A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier”的研读）梳理了论文的思想。本篇就开始对其实践，主要分以下几步：1，基于一个语料库算阅读全文

posted @ 2021-06-18 08:01 davidtym 阅读(954) 评论(0) 推荐(0) 编辑

语音降噪论文“A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier”的研读

摘要：最近认真的研读了这篇关于降噪的论文。它是一种利用混合模型降噪的方法，即既利用了生成模型（MoG高斯模型），也利用了判别模型（神经网络NN模型）。本文根据自己的理解对原理做了梳理。论文是基于“Speech Enhancement Using a Mixture-Maximum Model”提出的Mi 阅读全文

posted @ 2021-05-17 08:13 davidtym 阅读(1162) 评论(0) 推荐(3) 编辑

深度学习中神经网络模型的量化

摘要：深度学习神经网络模型中的量化是指浮点数用定点数来表示，也就是在DSP技术中常说的Q格式。我在以前的文章（Android手机上Audio DSP频率低 memory小的应对措施）中简单讲过Q格式，网上也有很多讲Q格式的，这里就不细讲了。神经网络模型在训练时都是浮点运算的，得到的模型参数也是浮点的。通阅读全文

posted @ 2021-02-22 07:59 davidtym 阅读(2873) 评论(1) 推荐(1) 编辑

嵌入式设备上卷积神经网络推理时memory的优化

摘要：以前的神经网络几乎都是部署在云端（服务器上），设备端采集到数据通过网络发送给服务器做inference（推理），结果再通过网络返回给设备端。如今越来越多的神经网络部署在嵌入式设备端上，即inference在设备端上做。嵌入式设备的特点是算力不强、memory小。可以通过对神经网络做量化来降load和阅读全文

posted @ 2021-02-07 14:56 davidtym 阅读(753) 评论(0) 推荐(0) 编辑

卷积神经网络中一维卷积的计算过程

摘要：卷积神经网络（CNN）是深度学习中常用的网络架构，在智能语音中也不例外，比如语音识别。语音中是按帧来处理的，每一帧处理完就得到了相对应的特征向量，常用的特征向量有MFCC等，通常处理完一帧得到的是一个39维的MFCC特征向量。假设一段语音有N帧，处理完这段语音后得到的是一个39行N列（行表示特征维度阅读全文

posted @ 2021-01-25 09:46 davidtym 阅读(22397) 评论(0) 推荐(9) 编辑

深度学习分类问题中accuracy等评价指标的理解

摘要：在处理深度学习分类问题时，会用到一些评价指标，如accuracy（准确率）等。刚开始接触时会感觉有点多有点绕，不太好理解。本文写出我的理解，同时以语音唤醒（唤醒词识别）来举例，希望能加深理解这些指标。 1，TP / FP / TN / FN 下表表示为一个二分类的混淆矩阵（多分类同理，把不属于当前类阅读全文

posted @ 2021-01-18 09:36 davidtym 阅读(1627) 评论(0) 推荐(0) 编辑

谈谈音频开发

公告