谈谈音频开发

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

摘要: 前面的博客里说过最近几个月我从传统语音(语音通信)切到了智能语音(语音识别)。刚开始是学语音识别领域的基础知识,学了后把自己学到的写了PPT给组内同学做了presentation(语音识别传统方法(GMM+HMM+NGRAM)概述)。一段时间后老板就布置了具体任务:在我们公司自己的ARM芯片上基于k 阅读全文
posted @ 2019-09-09 08:21 davidtym 阅读(9692) 评论(6) 推荐(8) 编辑

2023年7月21日

摘要: 前面的文章(飞桨paddlespeech语音唤醒推理C浮点实现)讲了飞桨paddlespeech语音唤醒推理的C浮点实现。但是嵌入式设备通常CPU频率低和memory小,在嵌入式设备上要想流畅的运行语音唤醒功能,通常用的是定点实现。于是我就在浮点实现(把卷积层和相应的batchNormal层合并成一 阅读全文
posted @ 2023-07-21 07:22 davidtym 阅读(510) 评论(0) 推荐(2) 编辑

2023年5月8日

摘要: 最近在智能语音中用到了数据集cn-celeb。这个数据集的音频格式是flac,而在做数据增强(augmentation)以及模型训练时用的数据格式是wav,因此需要把音频格式从flac转到wav。我在ubuntu下摸索了一番,找到了两种方法。 1,基于Linux下的sox命令写shell脚本实现 S 阅读全文
posted @ 2023-05-08 08:19 davidtym 阅读(492) 评论(0) 推荐(1) 编辑

2023年3月6日

摘要: PaddleSpeech提供了MDTC模型(paper: The NPU System for the 2020 Personalized Voice Trigger Challenge)在Hey Snips数据集上的语音唤醒(KWS)的实现。这篇论文是用空洞时间卷积网络(dilated tempo 阅读全文
posted @ 2023-03-06 08:10 davidtym 阅读(1113) 评论(5) 推荐(2) 编辑

2022年12月19日

摘要: 上篇(智能语音之远场关键词识别实践(一))讲了“远场关键词识别”项目中后端上的实践。本篇将讲在前端上的一些实践以及将前端和后端连起来形成一个完整的方案。下图是其框图:(麦克风阵列为圆阵且有四个麦克风,即有四个语音通道) 从上图可以看出,前端主要包括去混响、声源定位和波速形成(beamforming) 阅读全文
posted @ 2022-12-19 07:52 davidtym 阅读(444) 评论(0) 推荐(0) 编辑

2022年3月3日

摘要: 语音识别主要分两大类:大词汇量连续语音识别技术(Large Vocabulary Continuous Speech Recognition,LVCSR)和关键词识别(keyword Spotting,KWS)。LVCSR由于对算力要求较高,一般在云端(服务器侧)做,而KWS对算力的要求相对较小,可 阅读全文
posted @ 2022-03-03 08:16 davidtym 阅读(1547) 评论(0) 推荐(2) 编辑

2022年2月21日

摘要: 语音识别有近场和远场之分,且很多场景下都会用到麦克风阵列(micphone array)。所谓麦克风阵列是一组位于空间不同位置的麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置,采集到的信号包含了其空间位置信息。近场语音识别将声波看成球面波,它考虑各麦克风接收信号间的 阅读全文
posted @ 2022-02-21 08:19 davidtym 阅读(2618) 评论(1) 推荐(2) 编辑

2022年1月5日

摘要: 上篇文章(基于MCRA-OMLSA的语音降噪(二):实现 )讲了基于MCRA-OMLSA的语音降噪的软件实现。本篇继续讲,主要讲C语言下怎么对数学库里的求平方根(sqrt())、求自然指数(exp())、求自然对数(log())的函数做替换。 1,求平方根 求平方根最常用的方法是牛顿迭代法。下图是y 阅读全文
posted @ 2022-01-05 08:18 davidtym 阅读(1053) 评论(0) 推荐(0) 编辑

2021年12月28日

摘要: 上篇文章(基于MCRA-OMLSA的语音降噪(一):原理)讲了基于MCRA-OMLSA降噪的原理,本篇讲怎么做软件实现。软件实现有多种方式。单纯看降噪效果可用python,因为python有丰富的库可用,可节省不少时间,把主要精力放在降噪效果提升上。如果要把算法用在产品上就得用其他语言。我们是芯片公 阅读全文
posted @ 2021-12-28 08:10 davidtym 阅读(2006) 评论(0) 推荐(0) 编辑

2021年12月21日

摘要: 前面的几篇文章讲了webRTC中的语音降噪。最近又用到了基于MCRA-OMLSA的语音降噪,就学习了原理并且软件实现了它。MCRA主要用于噪声估计,OMLSA是基于估计出来的噪声去做降噪。类比于webRTC中的降噪方法,也有噪声估计(分位数噪声估计法)和基于估计出来的噪声降噪(维纳滤波),MCRA就 阅读全文
posted @ 2021-12-21 08:07 davidtym 阅读(2866) 评论(0) 推荐(1) 编辑

2021年11月15日

摘要: 上篇(webRTC中语音降噪模块ANS细节详解(三))讲了噪声的初始估计方法以及怎么算先验SNR和后验SNR。 本篇开始讲基于带噪语音和特征的语音和噪声的概率计算方法和噪声估计更新以及基于维纳滤波的降噪。 一, 带噪语音和特征条件下的语音概率 先看怎么算带噪语音和特征条件下的语音概率。其中会用到先前 阅读全文
posted @ 2021-11-15 08:02 davidtym 阅读(3157) 评论(10) 推荐(2) 编辑