davidtym - 博客园

基于WFST的语音识别解码器

摘要：学习语音识别有些时间了。老板要求我们基于Kaldi搭一个语音识别系统，在设备上通过MIC讲话，连着设备的PC的console上就能基本实时显示出讲话的内容。由于我们都是小白，刚开始可以要求低些，就用传统的GMM-HMM，能实现孤立词识别就算达标了，后面随着这方面能力的提高，再做更难一点的。任务下达后阅读全文

posted @ 2019-06-23 22:53 davidtym 阅读(3787) 评论(0) 推荐(0)

语音识别中唤醒技术调研

摘要：上篇博客（语音识别传统方法(GMM+HMM+NGRAM)概述）说到我们team要做语音识别相关的项目，而我们公司的芯片是用在终端上的，即我们要做终端上的语音识别。由于目前终端（如手机）上的CPU还不足够强劲，不能让语音识别的各种算法跑在终端上，尤其现在语音识别都是基于深度学习来做了，更加不能跑在终端阅读全文

posted @ 2019-05-28 22:26 davidtym 阅读(5125) 评论(2) 推荐(1)

语音识别传统方法(GMM+HMM+NGRAM)概述

摘要：春节后到现在近两个月了，没有更新博客，主要是因为工作的关注点正从传统语音（语音通信）转向智能语音（语音识别）。部门起了个新项目，要用到语音识别（准备基于Kaldi来做）。我们之前做的传统音频已基本成熟，就开始关注在语音识别上了。对于我们来说，这是个全新的领域（虽然都是语音相关的，但是语音通信偏信号处阅读全文

posted @ 2019-04-02 19:09 davidtym 阅读(5826) 评论(0) 推荐(2)

又被“过运营商语音认证”虐了一回

摘要：又被“过运营商语音认证”虐了一回！虐的伤痕累累、疲惫不堪！过程是痛苦的，但结果是美好的，收获也是挺多的！既然用了“又”，那以前肯定被虐过。是的，没错。那是7年多前（2011年底），同样是在秋冬，不过一个是2011年底，一个是2018年底。同样是在芯片公司，不过一个是老牌外企，一个是本土新秀。当时我阅读全文

posted @ 2019-01-21 07:45 davidtym 阅读(3458) 评论(1) 推荐(8)

在通信设备商工作那几年技术上的得与失

摘要：本人硕士毕业后的头几年是主要在通信设备商（他们研发生产通信设备（如基站）卖给电信运营商（如中国移动））工作，那时是通信业的黄金十年，单是通信设备商就有很多家，国内有华为、中兴、大唐、烽火等，国外有爱立信、诺基亚、西门子、摩托罗拉、朗讯、北电、阿尔卡特等。这里面的有些公司现在刚毕业的可能都没听说过，因阅读全文

posted @ 2018-12-10 09:35 davidtym 阅读(2649) 评论(2) 推荐(7)

webRTC中音频相关的netEQ（五）：DSP处理

摘要：上篇（webRTC中音频相关的netEQ（四）：控制命令决策）讲了MCU模块是怎么根据网络延时、抖动缓冲延时和反馈报告等来决定给DSP模块发什么控制命令的。DSP模块根据收到的命令进行相关处理，处理简要流程图如下。从上图看出如果有语音包从packet buffer里取出来先要做解码得到PCM数据，阅读全文

posted @ 2018-11-20 07:41 davidtym 阅读(5360) 评论(2) 推荐(1)

webRTC中音频相关的netEQ（四）：控制命令决策

摘要：上篇（webRTC中音频相关的netEQ（三）：存取包和延时计算）讲了语音包的存取以及网络延时和抖动缓冲延时的计算，MCU也收到了DSP模块发来的反馈报告。本文讲MCU模块如何根据网络延时、抖动缓冲延时和反馈报告等决定发给DSP模块的控制命令，好让DSP模块先对取出的语音包做解码处理（如果有的话）阅读全文

posted @ 2018-10-23 08:26 davidtym 阅读(5339) 评论(0) 推荐(1)

webRTC中音频相关的netEQ（三）：存取包和延时计算

摘要：上篇（webRTC中音频相关的netEQ（二）：数据结构）讲了netEQ里主要的数据结构，为理解netEQ的机制打好了基础。本篇主要讲MCU中从网络上收到的RTP包是怎么放进packet buffer和从packet buffer里取出来，以及网络延时值（optBufLevel）和抖动缓冲延时值（b 阅读全文

posted @ 2018-08-20 08:10 davidtym 阅读(7093) 评论(3) 推荐(1)

webRTC中音频相关的netEQ（二）：数据结构

摘要：上篇（webRTC中音频相关的netEQ（一）：概述）是netEQ的概述，知道了它主要是用于解决网络延时抖动丢包等问题提高语音质量的，也知道了它有两大单元MCU和DSP组成。MCU 主要是把从网络收到的语音RTP包放进packet buffer内，同时也会根据计算出来的网络延时和抖动缓冲延时以及DS 阅读全文

posted @ 2018-08-01 08:37 davidtym 阅读(6682) 评论(0) 推荐(1)

webRTC中音频相关的netEQ（一）：概述

摘要：上篇文章（语音通信中终端上的时延(latency)及减小方法）说从本篇开始会切入webRTC中的netEQ主题，netEQ是webRTC中音频技术方面的两大核心技术之一（另一核心技术是音频的前后处理，包括AEC、ANS、AGC等，俗称3A算法）。webRTC是Google收购GIPS重新包装后开源出阅读全文

posted @ 2018-07-16 08:29 davidtym 阅读(18130) 评论(6) 推荐(7)

谈谈音频开发

公告