谈谈音频开发

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 :: 管理 ::
上一页 1 2 3 4 5 6 7 ··· 9 下一页

2023年4月18日

摘要: 上篇(飞桨paddlespeech 语音唤醒初探)初探了paddlespeech下的语音唤醒方案,通过调试也搞清楚了里面的细节。因为是python 下的,不能直接部署,要想在嵌入式上部署需要有C下的推理实现,于是我就在C下把这个方案的部署实现了。需要说明的是目前完成的是浮点实现,真正部署时要用的是定 阅读全文
posted @ 2023-04-18 08:10 davidtym 阅读(622) 评论(0) 推荐(2)

2023年3月6日

摘要: PaddleSpeech提供了MDTC模型(paper: The NPU System for the 2020 Personalized Voice Trigger Challenge)在Hey Snips数据集上的语音唤醒(KWS)的实现。这篇论文是用空洞时间卷积网络(dilated tempo 阅读全文
posted @ 2023-03-06 08:10 davidtym 阅读(2126) 评论(5) 推荐(2)

2023年1月16日

摘要: 在日常生活中不管是打电话还是听音乐,都会遇到音量不合适而去调整音量的情况。如果音量调整软件处理不好,就会听到pop noise。产生pop noise的原因是音量直接从当前值骤变到目标值,而不是缓慢的变。如果缓慢的变就不会有pop noise了。图1显示的是音量变大时骤变和缓慢变的示意图。图2显示的 阅读全文
posted @ 2023-01-16 08:10 davidtym 阅读(899) 评论(0) 推荐(1)

2022年12月19日

摘要: 上篇(智能语音之远场关键词识别实践(一))讲了“远场关键词识别”项目中后端上的实践。本篇将讲在前端上的一些实践以及将前端和后端连起来形成一个完整的方案。下图是其框图:(麦克风阵列为圆阵且有四个麦克风,即有四个语音通道) 从上图可以看出,前端主要包括去混响、声源定位和波速形成(beamforming) 阅读全文
posted @ 2022-12-19 07:52 davidtym 阅读(680) 评论(0) 推荐(0)

2022年3月3日

摘要: 语音识别主要分两大类:大词汇量连续语音识别技术(Large Vocabulary Continuous Speech Recognition,LVCSR)和关键词识别(keyword Spotting,KWS)。LVCSR由于对算力要求较高,一般在云端(服务器侧)做,而KWS对算力的要求相对较小,可 阅读全文
posted @ 2022-03-03 08:16 davidtym 阅读(2466) 评论(0) 推荐(3)

2022年2月21日

摘要: 语音识别有近场和远场之分,且很多场景下都会用到麦克风阵列(micphone array)。所谓麦克风阵列是一组位于空间不同位置的麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置,采集到的信号包含了其空间位置信息。近场语音识别将声波看成球面波,它考虑各麦克风接收信号间的 阅读全文
posted @ 2022-02-21 08:19 davidtym 阅读(4472) 评论(1) 推荐(2)

2022年1月7日

摘要: 做音频软件开发10+年,包括语音通信、语音识别、音乐播放等,大部分时间在做语音通信。做语音通信中又大部分时间在做VoIP语音处理。语音通信是全双工的,既要把自己的语音发送出去让对方听到,又要接收对方的语音让自己听到。发送又可叫做上行或者TX,接收又可叫做下行或者RX。之前写了好多关于VoIP语音处理 阅读全文
posted @ 2022-01-07 08:26 davidtym 阅读(2186) 评论(0) 推荐(4)

2022年1月5日

摘要: 上篇文章(基于MCRA-OMLSA的语音降噪(二):实现 )讲了基于MCRA-OMLSA的语音降噪的软件实现。本篇继续讲,主要讲C语言下怎么对数学库里的求平方根(sqrt())、求自然指数(exp())、求自然对数(log())的函数做替换。 1,求平方根 求平方根最常用的方法是牛顿迭代法。下图是y 阅读全文
posted @ 2022-01-05 08:18 davidtym 阅读(1418) 评论(0) 推荐(0)

2021年12月28日

摘要: 上篇文章(基于MCRA-OMLSA的语音降噪(一):原理)讲了基于MCRA-OMLSA降噪的原理,本篇讲怎么做软件实现。软件实现有多种方式。单纯看降噪效果可用python,因为python有丰富的库可用,可节省不少时间,把主要精力放在降噪效果提升上。如果要把算法用在产品上就得用其他语言。我们是芯片公 阅读全文
posted @ 2021-12-28 08:10 davidtym 阅读(2819) 评论(0) 推荐(0)

2021年12月21日

摘要: 前面的几篇文章讲了webRTC中的语音降噪。最近又用到了基于MCRA-OMLSA的语音降噪,就学习了原理并且软件实现了它。MCRA主要用于噪声估计,OMLSA是基于估计出来的噪声去做降噪。类比于webRTC中的降噪方法,也有噪声估计(分位数噪声估计法)和基于估计出来的噪声降噪(维纳滤波),MCRA就 阅读全文
posted @ 2021-12-21 08:07 davidtym 阅读(4338) 评论(0) 推荐(1)

上一页 1 2 3 4 5 6 7 ··· 9 下一页