谈谈音频开发

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2019年5月28日

摘要: 上篇博客(语音识别传统方法(GMM+HMM+NGRAM)概述)说到我们team要做语音识别相关的项目,而我们公司的芯片是用在终端上的,即我们要做终端上的语音识别。由于目前终端(如手机)上的CPU还不足够强劲,不能让语音识别的各种算法跑在终端上,尤其现在语音识别都是基于深度学习来做了,更加不能跑在终端 阅读全文
posted @ 2019-05-28 22:26 davidtym 阅读(5112) 评论(2) 推荐(1)

2019年4月2日

摘要: 春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别)。部门起了个新项目,要用到语音识别(准备基于Kaldi来做)。我们之前做的传统音频已基本成熟,就开始关注在语音识别上了。对于我们来说,这是个全新的领域(虽然都是语音相关的,但是语音通信偏信号处 阅读全文
posted @ 2019-04-02 19:09 davidtym 阅读(5817) 评论(0) 推荐(2)

2019年1月21日

摘要: 又被“过运营商语音认证”虐了一回!虐的伤痕累累、疲惫不堪!过程是痛苦的,但结果是美好的,收获也是挺多的!既然用了“又”,那以前肯定被虐过。是的,没错。那是7年多前(2011年底),同样是在秋冬,不过一个是2011年底,一个是2018年底。同样是在芯片公司, 不过一个是老牌外企,一个是本土新秀。当时我 阅读全文
posted @ 2019-01-21 07:45 davidtym 阅读(3451) 评论(1) 推荐(8)

2018年12月10日

摘要: 本人硕士毕业后的头几年是主要在通信设备商(他们研发生产通信设备(如基站)卖给电信运营商(如中国移动))工作,那时是通信业的黄金十年,单是通信设备商就有很多家,国内有华为、中兴、大唐、烽火等,国外有爱立信、诺基亚、西门子、摩托罗拉、朗讯、北电、阿尔卡特等。这里面的有些公司现在刚毕业的可能都没听说过,因 阅读全文
posted @ 2018-12-10 09:35 davidtym 阅读(2644) 评论(2) 推荐(7)

2018年11月20日

摘要: 上篇(webRTC中音频相关的netEQ(四):控制命令决策)讲了MCU模块是怎么根据网络延时、抖动缓冲延时和反馈报告等来决定给DSP模块发什么控制命令的。DSP模块根据收到的命令进行相关处理,处理简要流程图如下。 从上图看出如果有语音包从packet buffer里取出来先要做解码得到PCM数据, 阅读全文
posted @ 2018-11-20 07:41 davidtym 阅读(5344) 评论(2) 推荐(1)

2018年10月23日

摘要: 上篇(webRTC中音频相关的netEQ(三):存取包和延时计算)讲了语音包的存取以及网络延时和抖动缓冲延时的计算,MCU也收到了DSP模块发来的反馈报告。本文讲MCU模块如何根据网络延时、抖动缓冲延时和反馈报告等决定发给DSP模块的控制命令, 好让DSP模块先对取出的语音包做解码处理(如果有的话) 阅读全文
posted @ 2018-10-23 08:26 davidtym 阅读(5325) 评论(0) 推荐(1)

2018年8月20日

摘要: 上篇(webRTC中音频相关的netEQ(二):数据结构)讲了netEQ里主要的数据结构,为理解netEQ的机制打好了基础。本篇主要讲MCU中从网络上收到的RTP包是怎么放进packet buffer和从packet buffer里取出来,以及网络延时值(optBufLevel)和抖动缓冲延时值(b 阅读全文
posted @ 2018-08-20 08:10 davidtym 阅读(7064) 评论(3) 推荐(1)

2018年8月1日

摘要: 上篇(webRTC中音频相关的netEQ(一):概述)是netEQ的概述,知道了它主要是用于解决网络延时抖动丢包等问题提高语音质量的,也知道了它有两大单元MCU和DSP组成。MCU 主要是把从网络收到的语音RTP包放进packet buffer内,同时也会根据计算出来的网络延时和抖动缓冲延时以及DS 阅读全文
posted @ 2018-08-01 08:37 davidtym 阅读(6656) 评论(0) 推荐(1)

2018年7月16日

摘要: 上篇文章(语音通信中终端上的时延(latency)及减小方法)说从本篇开始会切入webRTC中的netEQ主题,netEQ是webRTC中音频技术方面的两大核心技术之一(另一核心技术是音频的前后处理,包括AEC、ANS、AGC等,俗称3A算法)。webRTC是Google收购GIPS重新包装后开源出 阅读全文
posted @ 2018-07-16 08:29 davidtym 阅读(18079) 评论(6) 推荐(7)

2018年7月2日

摘要: 时延是语音通信中的一个重要指标,当端到端(end2end)的时延(即one-way-delay,单向时延)低于150Ms时人感觉不到,当端到端的时延超过150Ms且小于450Ms时人能感受到但能忍受不影响通话交流,当端到端的时延大于1000Ms时严重影响通话交流,用户体验很差。同时时延也是语音方案过 阅读全文
posted @ 2018-07-02 08:18 davidtym 阅读(5325) 评论(0) 推荐(3)