davidtym - 博客园

嵌入式设备上卷积神经网络推理时memory的优化

摘要：以前的神经网络几乎都是部署在云端（服务器上），设备端采集到数据通过网络发送给服务器做inference（推理），结果再通过网络返回给设备端。如今越来越多的神经网络部署在嵌入式设备端上，即inference在设备端上做。嵌入式设备的特点是算力不强、memory小。可以通过对神经网络做量化来降load和阅读全文

posted @ 2021-02-07 14:56 davidtym 阅读(961) 评论(0) 推荐(0)

卷积神经网络中一维卷积的计算过程

摘要：卷积神经网络（CNN）是深度学习中常用的网络架构，在智能语音中也不例外，比如语音识别。语音中是按帧来处理的，每一帧处理完就得到了相对应的特征向量，常用的特征向量有MFCC等，通常处理完一帧得到的是一个39维的MFCC特征向量。假设一段语音有N帧，处理完这段语音后得到的是一个39行N列（行表示特征维度阅读全文

posted @ 2021-01-25 09:46 davidtym 阅读(25735) 评论(0) 推荐(12)

深度学习分类问题中accuracy等评价指标的理解

摘要：在处理深度学习分类问题时，会用到一些评价指标，如accuracy（准确率）等。刚开始接触时会感觉有点多有点绕，不太好理解。本文写出我的理解，同时以语音唤醒（唤醒词识别）来举例，希望能加深理解这些指标。 1，TP / FP / TN / FN 下表表示为一个二分类的混淆矩阵（多分类同理，把不属于当前类阅读全文

posted @ 2021-01-18 09:36 davidtym 阅读(2141) 评论(0) 推荐(0)

音频处理中交织与非交织数据转换的几种方法

摘要：当音频的声道数多于一个时，音频数据的存放有两种格式，即交织的（interleave）和非交织的（non-interleave）。以最常见的双声道为例，交织和非交织的音频数据存放如下图：上图中L表示左声道数据，R表示右声道数据，整数1、2等表示第几个采样点，这样L1就表示左声道的第一个采样点数据。从阅读全文

posted @ 2020-05-29 18:18 davidtym 阅读(1809) 评论(0) 推荐(1)

我们基于kaldi开发的嵌入式语音识别系统升级成深度学习啦

摘要：先前的文章《三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的》说我们花了不到三个月的时间搭了一个基于kaldi的嵌入式语音识别系统，不过它是基于传统的GMM-HMM的，是给我们练手用的，通过搭这个系统我们累积了一定的语音识别领域的经验，接下来我们就要考虑做什么形态的产品了。语阅读全文

posted @ 2019-12-30 08:09 davidtym 阅读(2746) 评论(0) 推荐(3)

kaldi中CD-DNN-HMM网络参数更新公式手写推导

摘要：在基于DNN-HMM的语音识别中，DNN的作用跟GMM是一样的，即它是取代GMM的，具体作用是算特征值对每个三音素状态的概率，算出来哪个最大这个特征值就对应哪个状态。只不过以前是用GMM算的，现在用DNN算了。这是典型的多分类问题，所以输出层用的激活函数是softmax，损失函数用的是cross e 阅读全文

posted @ 2019-11-05 08:16 davidtym 阅读(1671) 评论(0) 推荐(0)

机器学习中梯度下降法原理及用其解决线性回归问题的C语言实现

摘要：本文讲梯度下降（Gradient Descent）前先看看利用梯度下降法进行监督学习（例如分类、回归等）的一般步骤： 1，定义损失函数（Loss Function） 2，信息流forward propagation，直到输出端 3，误差信号back propagation。采用“链式法则”，求阅读全文

posted @ 2019-10-18 08:08 davidtym 阅读(2792) 评论(1) 推荐(0)

三个小白是如何在三个月内搭一个基于kaldi的嵌入式在线语音识别系统的

摘要：前面的博客里说过最近几个月我从传统语音（语音通信）切到了智能语音（语音识别）。刚开始是学语音识别领域的基础知识，学了后把自己学到的写了PPT给组内同学做了presentation（语音识别传统方法(GMM+HMM+NGRAM)概述）。一段时间后老板就布置了具体任务：在我们公司自己的ARM芯片上基于k 阅读全文

posted @ 2019-09-09 08:21 davidtym 阅读(10188) 评论(6) 推荐(9)

以kaldi中的yesno为例谈谈transition

摘要：在基于GMM-HMM的传统语音识别里，比音素（phone）更小的单位是状态（state）。一般每个音素由三个状态组成，特殊的是静音（SIL）由五个状态组成。这里所说的状态就是指HMM里的隐藏的状态，而每帧数据就是指HMM里的观测值。每个状态可以用一个GMM模型表示（这个GMM模型的参数是通过训练得到阅读全文

posted @ 2019-08-12 08:05 davidtym 阅读(2049) 评论(0) 推荐(0)

机器学习中K-means聚类算法原理及C语言实现

摘要：本人以前主要focus在传统音频的软件开发，接触到的算法主要是音频信号处理相关的，如各种编解码算法和回声消除算法等。最近切到语音识别上，接触到的算法就变成了各种机器学习算法，如GMM等。K-means作为其中比较简单的一种肯定是要好好掌握的。今天就讲讲K-means的基本原理和代码实现。其中基本原理阅读全文

posted @ 2019-07-07 22:28 davidtym 阅读(5489) 评论(2) 推荐(1)

谈谈音频开发

公告