[原创]桓泽学音频编解码（1）：MPEG1 MP3 系统算法分析

07年总结的文档今天分享一下

1 标准分析

1.1 通用部分..

1.1.1 码流结构..

1.1.2 码流解析..

1.2 层1和层2.

1.2.1层1和层2子码流结构..

1.2.2层1和层2码流解析..

1.2.2层1和层2算法分析..

1.2.2.1层1和层2反量化算法..

1.2.2.2层1和层2 其他算法..

1.3 层3.

1.3.1 层3子码流结构..

1.3.2 层3码流解析..

1.3.2.1 旁信息解码..

1.3.2.2 scalerfactor信息..

1.3.3 层3算法分析..

1.3.3.1 huffman解码..

1.3.3.2量化编码..

1.3.3.3 recoder处理..

1.3.3.4立体声处理..

1.3.3.5 imdct

1.3.3.6 alias处理..

1.3.3.7综合滤波器组..

2 相关参考C代码实现

2.1解码主循环..

2.2核心算法..

2.3解析maindata数据..

2.4 alias算法C代码..

3 推荐的参考文献

标准分析

11172-3编解码框图

1.1. 通用部分

1.1.1. 码流结构

11172-3码流以frame为单位,每个frame共分四个部分header, CRC, audio data和ancillary data如图。除了audio data以外的部分都是公共部分，每层都是一样的。

1.1.2码流解析

1172-3解码的第一步就是要同步文件头，解码文件头信息和进行错误检测。由文件头12个同步位订出数据的起始位置，在对文件头做解码动作，取得信息，当档头中有须要做CRC 时，可以取得文件头信息后的16位长度的CRC检查码，对文件头及旁信息进行CRC检查。1172-3的header结构信息如下。

Header

(32bits)

CRC

(0/16bits)

Side information

(136/256bits)

Main Data

Ancillary Data

Header的结构

位宽

作用

syncword

同步字固定值 1111 1111 1111

1：mpeg-1 0:mpeg-2

layer

层指示标志位

11：层1

10：层2

01：层3

00：层3

protection_bit

CRC标志位，1：添加CRC，0：无CRC

bitrate_index

指示编码使用的比特率，单位为kbit/s

bitrate_index	层1	层2	层3
'0000'	自由格式	自由格式	自由格式
'0001'	32	32	32
'0010'	64	48	40
'0011'	96	56	48
'0100'	128	64	56
'0101'	160	80	64
'0110'	192	96	80
'0111'	224	112	96
'1000'	256	128	112
'1001'	288	160	128
'1010'	320	192	160
'1011'	352	224	192
'1100'	384	256	224
'1101'	416	320	256
'1110'	448	384	320
'1111'	禁止使用	禁止使用	禁止使用

sampling_frequency

采样率

00：44.1khz

01：48kHz

10：32kHz

11：保留

padding_bit

Buffer flag

1：frame 中包含附加slot调整平均比特率与采样频率一致，0：反之

注意：padding在44.1khz和自由格式中是必须的。

private_bit

保留位，将来的ISO也不用

mode

立体声标志位

00：立体声

01：联合立体声

10：2通道无立体声

11：单通道

注意：立体声与2通道无立体声的区别是前者声音相关是左右通道数据只是没有用算法压缩，而后者2个通道的数据根本无关系。

mode_extension

立体声扩充标志位

层1，2中指明那些子带使用强度立体声

00	子带4-31使用强度立体声
01	子带8-31使用强度立体声
10	子带12-31使用强度立体声
11	子带16-31使用强度立体声

层3中此flag用于指明使用了那种具体的立体声算法

	强度立体声	MS立体声
00	未使用	未使用
01	使用	未使用
10	未使用	使用
11	使用	使用

注意：有2种情况会导致使用stereo

1． Mode＝00

2． Mode＝01且mode_extension＝00

0：无版权要求，1：有版权要求

original/copy

0：复制比特流，1：原版比特流

emphasis

指示使用哪种加重措施

emphasis: 在存储和传输以前对声音信号进行滤波以改善高频的SNR

de-emphasis: 在存储和传输以后对声音信号进行滤波去除由于emphasis 处理带来的线性失真。

'00'	未使用
'01'	50/15 微秒加重
'10'	保留
'11'	CCITT J.17

1.2.1层1和层2子码流结构

1.2.2层1和层2码流解析

层1和层2的audio_data部分码流传输信息如表.

	传送信息
层1	allocation	scalefactor		sample
层2	allocation	scalefactor	scfsi	sample

每个部分信息的意义是

	位宽属性	循环因子	层1中作用	层2中作用
allocation[ch][sb]	4位定长码	通道号ch 子带号sb	指明每个通道每个子带的量化频率谱线的编码位数，在使用intensity立体声编码时，左右通道的scalefactor是一样的，故只传送1个通道的allocation。	指明每个通道每个子带的量化频率谱线的编码位数，在使用intensity立体声编码时，左右通道的scalefactor是一样的，故只传送1个通道的allocation。与层1不同的是层2中3个连续的量化频率谱线被编码成一个码字，详见标准附录B的表3-B.2. Layer II bit allocation tables
scalefactor[ch][sb]	6位定长码	通道号ch 子带号sb	指明在每个通道每个子带反量化频率谱线时用于加权的因子，查表标准附录B Table3.1获得scalefactor值	同层1
sample[ch][sb][s]	2-15位变长码	通道号ch 子带号sb 谱线索引s	每个子带每个通道第s个量化频率谱线的码字	每个子带每个通道第s个量化频率谱线的码字
scfsi[ch][sb]	2位定长码	通道号ch 子带号sb		指明scalefactor在每个通道每个子带中的使用方法（如下表）

scfsi[sb]
'00'	传输3个 scalefactors, 每个组一个scalerfactor
'01'	传输2个 scalefactors, 第一个对前两组有效,第二个对第三组有效
'10'	传输1个scalefactor, 对全部3组数据有效
'11'	传输2个 scalefactors, 第一个对第一组有效,第二个对后两组有效

注意：循环因子的优先级是sb优先级最高，其次是ch，即每个sb内有2个通道的数据。sample[ch][sb][s]循环的优先级是s在最外层，其次是sb，再次是ch。下面给出sample[ch][sb][s]排列方式。

1.2.2 层1和层2算法分析

层1和层2的主要区别是在于frame的分割上，在层1中，384个数据为一帧（frame）,每个frame有32个子带（subband），每个子带12个数据（sample）。而层2中 1152个数据为一帧（frame）, 每个frame有32个子带（subband，每个子带3个组（group），每个group有12个数据（sample）。

层1层2解码算法如图，首先解析码流数据，层1，层2的码流解析可以分为2个部分。定长码流信息解析和变长码流信息解析。其中定长部分包括解码信息side info和scalefactor。只要按照码流语法信息中规定的码流格式依次读取数据即可。变长码流信息结构由每个变长的量化频率系数组成，32个子带，每个子带12个sample（层1）或36个（层2）的变长量化频率系数的长度也通过side info中的allocation[ch][sb]信号指明。故在码流解析之后获得解码信息，scalefactor，量化谱线数据以后就可以通过反量化重建频率谱线。层1和层2的量化解码与层3不同，层1，2使用均匀量化器，层3使用非均匀量化器。

层1、层2解码框图

层1和层2的反量化公式如下。

层1和层2的rescaler公式如下。

S´´ 输入反量化数据

S´ 输出频率谱线数据

重建频率谱线后，若使用立体声编码要进行立体声解码处理，再通过综合滤波器组后还原为时域信号输出。层1和层2使用的算法中立体声处理和层3的算法类似，具体内容详见11172-3 stereo处理分析文档。层1和层2综合滤波器组的算法和层3中是完全一样的。唯一要注意的是层1，层2，层3的frame大小不同。故层1，2的分析综合滤波器组的算法不再给出。请详见层3的相关部分。

1.3 11172-3层3

1.3.1层3的码流格式

层3中 1152个数据为一帧（frame）,每个frame有2个granules，每个granule有576个数据，32个子带，每个子带18个数据（sample）。

层3的audio data语法结构如图

层3的side infomation语法结构如图

层3的main data语法结构如图

1.3.2层3的码流解析

层3的码流解析也可以分为2个部分。定长码流信息解析和变长码流信息解析。定长码包括side information。变长码包括scalefactor和huffman code。

1.3.2.1旁信息解码(Side Information Decoding)

旁信息包含许多必要的参数，有逆量化的信息（global gain、scale factor compress、sub block gain、scale factor、pre flag）以及霍夫曼解码信息（part 2_3 length、big values、table select、region 0 count、region 1 count 、count 1 table select），window type（window switch flag、block type、mix block flag）和其他信息，这些信息都会被暂存起来以便稍后使用。而旁信息大小由声道决定，单声道 17字节，双声道 32位字节。

Main_data_begin:为9位的指针，指明main_data的起始位置。由于mp3中使用bit reservoir技术, 这个技术是指如果一个 frame可用的位在编码完后还有剩下时，这些剩下的位可以被之后的frame所用，所以一个frame中的main_data不一定紧跟在side information后面,而在bit流中增加信号main_data_begin,它在数据流中有pointer的作用，指向真正的main data的开始。

如果main_data_begin值为 0 则表示main_data是紧接在side_information之后。否则，它表示一个负偏移值，它来自于同步位的第一个字组，但是不包含旁信息和文件头的位数。因为位保留（bit reservoir）的原因使得主要数据不一定都紧附在旁信息后面，如图。frame 0 的main_data_begin值为 0 则表示main_data是紧接在side_information之后。frame 1 它的主要数据起始位置不为 0 且其main_data一部份是在旁信息的前面，一部份在后面。其余frame依此类推。

Scfsi(ScalFactor Selector Information): Scfsi是一个 scale factor 标准，不论为组别 0 或是组别 1 都可以共享它。当编码开始时全部576的频谱会被分成 4份的 scale factor 频带（band），所以在单声道模式时SCFSI 的大小为 4位，在双声道模式时为8位。当为1表示要读取granule0 and granule1当为0时只须读取granule0 . granule1的信息与granule0共享。

table_select: 此用于霍夫曼解码的big value区共有32个表可供选择。

Count1table_select:此用于霍夫曼解码的 count1区有2个表可以选择。

Big_values :指示主要数据(main data)中的big value区域包含多少笔压缩后的音频资料。

Scalefac_compress:表示重主要资料中取出的量化因子其数据长度是多少位元。

Block_type:表示window是何种型态，包含长窗(long window ),短窗(short window) 。
1.3.2.2 Scale Factor Decoder

Main data码流分为 2 部分， scale factor 和huffman code。它们都是变长码。每个scalefactor 的长度由slen1 和 slen2 计算出来，而slen1 和 slen2 由scalefac_compress, block_type和mixed_block_flag一起确定。当解码到第二组时，如果 SCFSI 被设定为 1，则第二组的 scale factor 不必计算，可以由第一组中直接获得。在得到slen1 和 slen2 之后，每一个 scale factor 频带都可以解码出scale factor。最后所有的scale factors 的大小（part2 length）都可以借由下列公式计算出来：

(1) Long block (block type = 0、 1、 3)：

576笔频谱值被分为 21 个 scale factor 频带。slen1 表示频带0到10的 scale factor 大小。slen2 表示频带11到20的 scale factor 大小， slen2 其中： part2 length = 11 × slen1 + 10 ×

(2) Short block (block type = 2 and mixed block flag = 0)： 576笔频谱值被分为 12 个 scale factor 频带。slen1 表示频带 0 到 5 的 scale factor 大小。slen2 表示频带 6 到 11 的 scale factor 大小，其中： part2 length = 3 × 6 × slen1 + 3 × 6 × slen2

(3) Mix block (block type = 2 and mixed block flag = 1)：

576笔频谱值被分为 17 个 scale factor 频带。前面8个频带为 long block，后面9个频带为short block，每一个频带包含3个窗口（window）。slen1 表示频带 0 到 10 的 scale factor 大小。slen2 表示频带 11 到 16 的 scale factor 大小，其中：part2 length=(8 + 3 × 3) × slen1 + (6 × 3) × slen2

1.3.3 层3算法分析

1.3.3.4 霍夫曼解码

解析码流之后，提取了必要地的解码信息以后就进入依次的解码算法模块。Huffman解码是首先进行的解码算法。霍夫曼解码器使用标准固定的32个索引表把二进制码流解码成量化谱线数据。。它包含了这些代码当初编码的信息。不同的频率频谱使用不同的索引表，而所代表的查寻都是根据数据流的旁信息。在任何索引表当中最长的可变长度代码，至多到19 bits，但是实际上在标准中只有16种不同的索引表。则解码过程将会继续，由读取来自于索引表中的元素。来决定下一个标签到底需要读取多少的位，如同于下一个将要使用到的索引表的起始地址。具体内容详见11172-3 huffman解码算法分析文档。

1.3.2.5量化与de-scalefacotr

从Huffman解码后的值经过反量化重构频率谱线，反量化是依以下的公式：

(1) long block：

(2) short block：

其中global_gain、scalefac_multiplier、scalefac_l、preflag、pretab均在side information中有指定。具体内容详见11172-3 逆量化算法分析文档。

1.3.2.6 Reorder

因为在短窗的 Huffman编码时将每个子带内的同一频率的三个窗采样数据均重新排列为同一窗，故在此必须恢复成原来的顺序，而长窗没有重新排列故不需要再重新排列。

下面的例子说明了重新排列的方法：假设6组频率系数，每组频率系数由3个窗相同的频率系数组成，内总共有18个数据，Reorder过程如图2：

1.3.2.7 Alias Reduction

Alias Reduction只在长窗口要使用，以减少因互相影响产生的噪声原因：使用长窗框得到较细的频谱分辨率时，同时会有混叠（Aliasing）的产生。原始信号被分成32 个子频带时，在频谱上可见邻近的子频带间有明显的重叠现象，而处于重叠区间的信号将会同时影响两个子频带。所以使用Aliasing算法消除频率交叠。

混叠的过程如图

伪代码

for（sb=1;sb<32;sb++）{

for（i=0;i<8;i++）{

xr[18*sb-1 - i] ＝ xr[18*sb -1-i]*cs[i] － xr[18*sb +i] *ca[i];

xr[18*sb +i] ＝ xr[18*sb +i] *cs[i] ＋ xr[18*sb -1-i] *ca[i];

}

Cs[i]＝(1＋C[i])^-0.5 Ca[i]＝(C[i] /(1＋C[i])) ^-0.5

c[0～7] = { -0.6, -0.535, -0.33, -0.185, -0.095, -0.041, -0.0142, -0.0037 }

xr[i]为经过reorder 模块重新排列后的频率值数据。C[i]值为8个可由查表取得之固定系数值。因此 Cs[i]与 Ca[i]为各 8 个可先计算出结果的值。

1.3.2.8 立体声效处理(Stereo Processing)

MP3 除了提供单声道及双声道之外，同时还提供强化立体声（intensity stereo）与 MS 立体声这两种立体声的编码方式。不过这时候的左右声道就并不是单纯是由反量化所处理过后的值，所以须要经过这个立体声的处理过程来将编码过的立体声信号还原回左/右立体声信号。具体内容详见11172-3 stereo处理分析文档。

1.3.2.9 改良式离散余弦反转换及重迭相加(IMDCT & Overlapping-Add)

标准中，编码器使用分析滤波器组把时域的576个数据分成32个子带，每个子带18个频域数据。再通过MDCT把18个频域数据进行细分，进一步提高频率分辨率。在解码端就要进行IMDCT把原有的频率信号复原。由于MDCT 并不是一种正交，也就是会产生时域上的不一致，所以做转换时，必须有50%做重迭，以消除这种不一致，因此在做完IMDCT 后还要做重迭相加。做IMDCT 长窗共有18条频线组成，输出得到36个值，短窗共有6条频线组成，输出得到12个值。无论长窗或短窗做完IMDCT 后，在做windowing的动作，最终还是得到36个值，之后再将前一个区块输出值的前一半(0--17) 必须和先前的区块输出值的后一半(18--35) 做重迭相加。具体内容详见11172-3 IMDCT算法分析文档。

1.3.2.10合成滤波器(Synthesis Polyphase)

IMDCT后的结果再经多相滤波器就可以合成输出的讯号，由IMDCT输出的64个输出向量V，先暂存至一个FIFO，每16个V向量(1024个sample)交叉型成 U向量(512个元素)，U向量再经D window形成W向量(512个元素)，最后512个元素每32个为一组，共分16组，此16组向量的和即为最后的重建结果。具体内容详见11172-3 分析综合滤波器组算法分析文档。

2 相关参考C代码实现

参考代码来自ISO标准参考代码

2.1解码主循环流程图

2.2层3解码算法流程图

posted @ 2012-04-29 07:32 杭州桓泽阅读(6683) 评论(24) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

[原创]桓泽学音频编解码（1）：MPEG1 MP3 系统算法分析

公告