随笔分类 - 音频处理
分享音频处理相关资源以及思考总结
摘要:近期比较忙, 抽空出来5.1开源献礼. 但凡学习音频降噪算法的朋友,肯定看过一个算法. <<语音增强-理论与实践>> 中提及到基于对数的最小均方误差的降噪算法,也就是LogMMSE. 资料见: <<Speech enhancement using a minimum mean-square erro
阅读全文
摘要:经过前面研究图像算法和近阶段研究视频和音频算法的经历经验. 在2019年快要来临的时候,写下这篇小记. 目的很简单,总结过往,展望未来. 这里列举一些本人在算法上踩过的坑和出坑思路. 主要是数据标准化问题. 1.临界值问题 (最大值,最小值,阈值,无穷小,无穷大) 最早做一键修图的时候,在这个坑上踩
阅读全文
摘要:很长一段时间,扎根在音频领域,各种玩耍。 渐渐上了轨道。 一切的一切仅仅因为相信自己能做好,也必须做好。 不懂就去查,去问,去找资料,去找视频。 渐渐的,我开始懂了,也慢慢有了系统性的理解。 随后经常能发散思维。 最近, 在自动增益, 音频降噪, 语速检测, 相位谱重建各个算法之间穿梭。 慢慢有所产
阅读全文
摘要:前面提及过,音频指纹算法的思路。 也梳理开源了两个比较经典的算法。 https://github.com/cpuimage/shazam https://github.com/cpuimage/AudioFingerprinter 后来一段时间,稍微看了下这两个算法,还有不少可以精简优化的空间。 例
阅读全文
摘要:前面提及到《大话音频变声原理 附简单示例代码》与《声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码》 都稍微讲过变声的原理和具体实现。 大家都知道,算法从实现到最后工程应用,中间的环节和问题特别多。 尤其是编码的架构设计,好的数据结构和代码逻辑封装肯定是可复用,组件化的。 前
阅读全文
摘要:关于音频变声算法,这个是一个很多人特别感兴趣的话题。 当然也有不少开源算法可以参阅学习,有基于时域,也有基于频域的算法。 最终算法想要达到的目的是一致。 最近也有不少网友问过关于变声算法的一些细节问题,邮件询问我。 要给出一个比较合理或者说通俗易懂的解释,看似简单,其实还蛮难的。 按照大概的一个逻辑
阅读全文
摘要:前面写过关于傅里叶算法的应用例子。 《基于傅里叶变换的音频重采样算法 (附完整c代码)》 当然也就是举个例子,主要是学习傅里叶变换。 这个重采样思路还有点瑕疵, 稍微改一下,就可以支持多通道,以及提升性能。 当然思路很简单,就是切分,合并。 留个作业哈。 本文不讲过多的算法思路,傅里叶变换的各种变种
阅读全文
摘要:在讲算法之前,上一些前人的资料。 http://coding-geek.com/how-shazam-works/ https://laplacian.wordpress.com/2009/01/10/how-shazam-works/ http://royvanrijn.com/blog/2010
阅读全文
摘要:近期一直不间断学习音频处理,一直也没想着要去碰音频编解码相关。 主要是觉得没什么实际的作用和意义。 不管视频编解码,图像编解码,音频编解码,都有很多组织基金在推动。 当然,在一些特定的情景下,需要用起来编解码库, 而一般这些库都会有编译困难,使用困难等等困难综合症。 图像方面,已经有stb_imag
阅读全文
摘要:前面有提到音频采样算法: WebRTC 音频采样算法 附完整C++示例代码 简洁明了的插值音频重采样算法例子 (附完整C代码) 近段时间有不少朋友给我写过邮件,说了一些他们使用的情况和问题。 坦白讲,我精力有限,但一般都会抽空回复一下。 大多数情况,阅读一下代码就能解决的问题, 也是要尝试一下的。
阅读全文
摘要:WebRTC提供一套音频处理引擎, 包含以下算法: AGC自动增益控制(Automatic Gain Control) ANS噪音抑制(Automatic Noise Suppression) AEC是声学回声消除(Acoustic Echo Canceller for Mobile) VAD是静音
阅读全文
摘要:前面分享过一个算法《音频增益响度分析 ReplayGain 附完整C代码示例》 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法。 不过在项目实测的时候,其实真的很难定标准, 到底在什么样的环境下,要增大音量,还是降低。 在通讯行业一般的做法就
阅读全文
摘要:降噪是音频图像算法中的必不可少的。 目的肯定是让图片或语音 更加自然平滑,简而言之,美化。 图像算法和音频算法 都有其共通点。 图像是偏向 空间 处理,例如图片中的某个区域。 图像很多时候是以二维数据为主,矩形数据分布。 音频更偏向 时间 处理,例如语音中的某段时长。 音频一般是一维数据为主,单声道
阅读全文
摘要:之前有大概介绍了音频采样相关的思路,详情见《简洁明了的插值音频重采样算法例子 (附完整C代码)》。 音频方面的开源项目很多很多。 最知名的莫过于谷歌开源的WebRTC, 其中的音频模块就包含有 AGC自动增益补偿(Automatic Gain Control)自动调麦克风的收音量,使与会者收到一定的
阅读全文
摘要:绝大数人都知道mp3格式编码,以及aac,amr等压缩格式编码。 而在语音通信界有一个强悍的音频格式编码opus. 经过实测,压缩比最高可以达到1:10。 100KB 压缩后 10KB 虽然是有损压缩, 但是根据实际对比试听, 几乎听不出差别。 而且还原度还比mp3高,压缩比也比mp3高。 用来压缩
阅读全文
摘要:人们所熟知的图像方面的3A算法有: AF自动对焦(Automatic Focus)自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure)自动曝光的是为了使感光器件获得合适的曝光量 AW自动白平衡(Automatic White Balance)白平衡的
阅读全文
摘要:前几天无意间看到一个项目rnnoise。 项目地址: https://github.com/xiph/rnnoise 基于RNN的音频降噪算法。 采用的是 GRU/LSTM 模型。 阅读下训练代码,可惜的是作者没有提供数据训练集。 不过基本可以断定他采用的数据集里,肯定有urbansound8k。
阅读全文
摘要:近一段时间在图像算法以及音频算法之间来回游走。 经常有一些需求,需要将音频进行采样转码处理。 现有的知名开源库,诸如: webrtc , sox等, 代码阅读起来实在闹心。 而音频重采样其实也就是插值算法。 与图像方面的插值算法没有太大的区别。 基于双线性插值的思路。 博主简单实现一个简洁的重采样算
阅读全文
摘要:上周看到一个变调算法,挺有意思的,原本计划尝试用来润色TTS合成效果的。 实测感觉还需要进一步改进,待有空再思考改进方案。 算法细节原文,移步链接: http://blogs.zynaptiq.com/bernsee/pitch-shifting-using-the-ft/ C++开源的项目,比较老
阅读全文
摘要:近期偶然间看到一个开源项目minimp3 Minimalistic MP3 decoder single header library 项目地址: https://github.com/lieff/minimp3 单文件头的最小mp3解码器。 一直很想抽时间好好看上一看。 最好的学习方式就是写个实用
阅读全文

浙公网安备 33010602011771号