随笔分类 - 音频算法
主要介绍音频的相关算法
摘要:详情见如下链接 http://mp.weixin.qq.com/s?__biz=MzU3NTY0OTA3Nw==&mid=2247484429&idx=1&sn=5a0c8e549f581dc67f34789f3072180c&chksm=fd1ea057ca692941760c256e9b8f65
阅读全文
摘要:有关Webrtc后续,可关注公众号:音频探险记 概述 webrtc可以说是音视频领域的百科全书了,集音视频采集、音频处理、编解码、传输、渲染于一体。之前一直想完整的编译它来着,但因为各种各样的原因没有编译成功,(没有梯子代码下不完整;编译环境搭建不完全)。上次偶尔在知乎上看到了一种下载webrtc代
阅读全文
摘要:https://mp.weixin.qq.com/s/q8iBh2OO-Qz1wT7J1Uix7A
阅读全文
摘要:Fbank是一种前端处理方法,以类似人耳的方式对音频进行处理,可以提高语音识别的性能。fbank的计算流程与语谱图类似,唯一的区别就在于加了个Mel滤波器,从而使得得到的特征更逼近人耳特性。有关于Mel滤波器的相关内容可以查阅https://mp.weixin.qq.com/s/pGwO_27x8d
阅读全文
摘要:https://mp.weixin.qq.com/s/pGwO_27x8ddQF55wTSQlmA
阅读全文
摘要:https://mp.weixin.qq.com/s/PKBZgFXicNHghb39iyPfow
阅读全文
摘要:欲知更多,请关注公众号:音频探险记 LPC 线性预测系数的基本思想:由于语音样点之间存在着相关性,那么当前点/未来点可以用过去的p个样本点进行预测,即 其中就是要求的LPC,P表示预测阶数。 好处:可以得到声道模型及其模型参数的方法,广泛用于语音识别以及语音合成中。 import librosa i
阅读全文
摘要:具体内容可参考 https://mp.weixin.qq.com/s/h0cqr0_fcE8OQqXutAQS7g
阅读全文
摘要:具体内容可以参考 https://mp.weixin.qq.com/s/sxufihY0vXNvYoHOSeJteA
阅读全文
摘要:本文档主要介绍开源框架webrtc中agc2原理,以下部分全是个人所理解的,如有错误之处请指出。agc2算法主要有3个模块,固定增益模块,自适应模块以及限幅模块。其关键函数位于GainController2.cc中的Process(AudioBuffer* audio) ...未完待续 本文的具体内
阅读全文
摘要:DRC,全名Dynamic Range Control,主要用于调整输入语音的动态范围。应用场景可以有如下的几种形式 • 类似于AGC的功能,对输入的忽大忽小语音进行动态拉伸,使语音听起来平稳。 • 作为小信号滤除器,滤除低于某一阈值的信号。一般用来滤除噪声,避免噪声在后续模块AGC中被放大。 本文
阅读全文
摘要:本文主要整理了webrtc中agc2模块。目前为止,webrtc提供的agc总共有三个版本,最老的版本在legacy文件夹下,然后就是agc文件下的一个版本,最后一个就是位于agc2文件下的另一版本。相较于之前的版本,agc2引入了RNN做vad估计。当然其它的部分也有所改进,如噪声估计、增益求解。
阅读全文
摘要:最近在实现一个功能的时候,用到了webrtc模块的vad部分的python版本,因参考的原博客找不到链接了,为了方便自己以后查阅相关内容,故整理成博客供日后方便。接下来开始正题,当然了,要想使用这个webrtcvad,自然就是安装它了,命令也很简单。 pip install webrtcvad 关于
阅读全文
摘要:pyroomacoustics能够在2D/3D房间中快速构建单/多个声源以及麦克风的模拟场景,借助image方法能够有效生成房间脉冲响应并模拟声源和麦克风之间的传播途径。接下来系列博文将主要介绍pyroomacoustics的使用。今天主要介绍利用pyroomacoustics生成房间脉冲相应(Ro
阅读全文
浙公网安备 33010602011771号