语音笔记：矢量量化

　　矢量量化（VQ，Vector Quantization）是一种极其重要的信号压缩方法。VQ在语音信号处理中占十分重要的地位。广泛应用于语音编码、语音识别和语音合成等领域。VQ是一种基于块编码规则的有损数据压缩方法。在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ的应用。它的基本思想是：将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化，从而压缩了数据而不损失多少信息。

一.概念

　　VQ实际上就是一种逼近。它的思想和”四舍五入“类似，都是用一个和一个数最接近的整数来近似表示这个数。这里借两张网上的图。

　　这里，小于-2的数都近似为-3，在-2和0之间的数都近似为-1 等等等。数轴上任意的一个数都会被近似为这四个数中的一个。而我们编码这四个数只需要两个二进制位就行了。这种我们称为：1-dimensional,2-bit VQ，量化速率是2bits/dimension。

　　同理，在二维空间里：

　　用蓝色实线将这张图划分为若干区域，落在二维空间中的任意点都可以被该区域的红星点近似表示。16个红星点可以用4位的二进制码来编码表示（2^4=16），所以这是2-dimensional, 4-bit VQ，它的速率同样是2bits/dimension。上面这些红星点就是量化矢量，表示图中的任意一个点都可以量化为这16个矢量中的其中一个。

　　以上的两个例子，红星被称为码矢（code vectors），蓝色边区域叫做编码区域（encoding regions）。所有码矢的集合称为码书（code book），所有编码区域的集合称为空间的划分（partition of the space）。

二.设计

　　我们假设M足够大（训练样本足够多），可以保证这个训练序列包含了源的所有统计特性。我们假设源矢量是k维的：

　　　　　　x_m=(x_m,1,x_m,2, …, x_m,k), m=1,2,…,M

　　假设码矢的数目是N（将矢量空间划分为N个部分，或者说是将样本量化为N种值），码书表示为：C={c₁, c₂,…, c_N}，每一个码矢是个k维向量：c_n=(c_n,1, c_n,2, …, c_n,k),n=1,2,…,N。

　　如果源矢量x_m在S区域内，那么它的近似Q(x_m)就是c_n，表示为：

Q(x_m)=c_n如果x_m 属于S_n

　　平均失真度表示如下：

那么设计问题就可以简单的描述为：给定T（训练集）和N（码矢数目），找到能使D_ave（平均失真度）最小的C（码书）和P（空间划分）。

三.优化

　　如果C和P是上面这个最小化问题的一个解，那么这个解需要满足以下两个条件：

　　1.Nearest NeighborCondition 最近邻条件：

　　最近邻条件的意思是编码区域S_n应该包含所有与c_n最接近的矢量（相比于与其他码矢的距离）。（对于在边界上面的矢量，采用某些决策方法）

　　2.Centroid Condition 质心条件：

　　质心条件要求码矢c_n是编码区域S_n内所有的训练样本向量的平均向量。现实中，需要保证每个编码区域至少要有一个训练样本向量。　　

四.实现

　　具体实现类似于K-Means聚类。

　　1.我们先定义一个可以接受的总失真度，设定一个初始的码矢为所有训练样本的平均值。

　　2.每迭代一次，使每个码矢分裂（乘以扰乱系数1+ɛ和1-ɛ）为两个，这种每一次分裂后的码矢数量就是前一次的两倍。

　　3.计算在现阶段的C和P基础上的总失真度，如果本次失真度相比上一次的失真度还大于可以接受的失真阈值ɛ，则继续迭代。

　　4.直至失真度足够低或者码矢的数目达到要求。

posted @ 2018-04-04 10:49 主題遠志阅读(777) 评论(0) 收藏举报

刷新页面返回顶部

主題遠志

1305.Software_Engineering.STDU

语音笔记：矢量量化

一.概念

二.设计

三.优化

四.实现

公告