猫呆呆的工作间整理笔记-GSM的空中接口(二) - 西电西风

Um接口 是MS和BTS之间的接口，通过该接口，MS完成与网络侧的通信，完成分组数据传送、移动性管理、会话管理、无线资源管理等多方面的功能。

Um接口是GSM/GPRS/EDGE网络中，MS(Mobile Station，移动台)与网络之间的接口，也被称为空中接口(Air Interface)。

Um接口用于传输MS与网络之间的信令信息和业务信息。

数字化：指将信息转换成数字（便于电脑处理，通常是二进制）格式的过程。

PSTN（Public Switched Telephone Network，公共交换电话网络) 就是家里那个座机...

GSM终端将声波转换为电平信号，再转换为无线信号，这就比CUP（水杯连线）传送的远得多，通过中继可以实现更长距离的传送。

第一步又称为声电转换，一百多年前贝尔就已经实现了。终端通过电磁感应将声波转换为随时间连续变化的电平值，即语音信号。这就是网络需要传送的“信息”。

第二步有两种方式可选择：模拟通信或数字通信。 模拟通信：发送方根据语音信号产生波形“一模一样”的波动信号（比如AM调制，已调信号的包络和基带信号的波形是相同的），接收方从波动信号恢复出语音信号。

缺点：模拟信号容易受噪声和干扰影响而产生失真，电话的杂音和电视的雪花都是信号失真的反映。模拟信号失真难以消除，长距离传送失真还会积累，在无线环境中尤为明显。模拟信号难以加密，信息容易被窃听。

（BTS、BSC、MSC）基站收发台（Base Transceiver Station）；基站控制器（base station control）；移动业务交换中心（mobile switching center）；

BSS: 基站子系统，包括BTS和BSC

第一代模拟移动通信系统(如TACS(Total Access Communication System)和AMPS(Advanced Mobile Phone System)等);

第二代数字移动通信系统(如GSM和cdmaone等); GSM是第二代移动通信系统（所谓的2G网络），自然采用数字通信方式。

第三代移动通信系统(简称3G)

数字通信的思路：发送方把语音信号转换成“0”和“1”构成的数字信号（如何表示“0”和“1”有多种形式）。这个过程我们称为“信源编码”，或通俗的称为“数字化”。

优点：数字通信还有很多优点：长距离传送可中继放大，消除失真的积累；接收方可检测是否存在误码，甚至可进行纠错（本质是增加冗余信息，牺牲带宽换取可靠性）；可应用加密保护和完整性保护，以确保信息不被窃听或篡改。

GSM问题：怎么把时间连续、幅度连续的语音信号转换为数字信号？

首先得对语音信号分段：物理信道是否时间连续并不重要，只要 终端产生信号的速率和网络传送信号的速率匹配。

GSM和PSTN、VoLTE(Voice over Long-Term Evolution（长期演进语音承载）,是运营商基于4G网络，通过IP传输技术，实现数据、语音、视频及短/彩信业务的统一承载)相同，GSM将语音每20毫秒分成一段。

语音信号的时间和幅度都是连续的，取值具有无限多可能性（跟实数一样多），要转换为有限长度的编码必须先离散化。在时间（横轴）上的离散化称为采样，在幅度（纵轴）上的离散化称为量化。

语音信号是随机信号，范围不确定，但数字通信只适用于特定范围的信号，对应的频率和幅度范围，我们不太严格的称为“动态范围”。

“数字化”引入的失真：即使在动态范围内，无论如何增加量化区间，输出总是和输入存在偏差。

采样频率越高，量化区间越多，重建信号越接近语音信号，但相应的编码越长，网络传送的信息越多，需要的带宽越大，这里存在一个平衡。可以看到，这里提到的信源编码，本质上依然是“依葫芦画瓢”，这种编码我们称为“波形编码”。

GSM采样频率为8KHz，20毫秒语音信号包含160个样本。直觉上采样频率多高都无法避免失真，但GSM认为8KHz就足够了，这个结论主要基于两位老人家的发现，一位是傅立叶，另一位是奈奎斯特。

“傅立叶级数”：周期信号都可以分解为成谐波关系的正弦波和余弦波。

狄利克雷（或称为狄里赫利）证明了傅立叶的猜想在一定条件下是成立的，这些条件当然就是“狄利克雷条件”。

<1>函数在任意的有限区间内连续，或存在有限数量的第一类间断点（即左极限、右极限都存在的间断点）；

<2>在一个周期内，函数存在有限数量的极大值或极小值；

<3>函数在单个周期内绝对可积。

傅立叶级数有两种表述形式，第一种是三角函数，将f(t)分解为常数项、余弦级数和正弦级数。第二种是复指数函数，可根据欧拉公式由第一种转换得到。系数cn和an、bn的关系如下：<1> c0=a0/2； <2> n>0时，cn=(an-jbn)/2；<3> n<0时，cn=c|n|，即正负频率成分的系数相同。

想象周期函数为什么可以分解为正弦级数和余弦级数：一方面，周期相同的周期函数叠加依然是周期函数，正弦函数和余弦函数是周期函数，如果基波cosωt和sinωt周期为T，则T也是n次谐波cosnωt和sinnωt的周期，因而成谐波关系的正弦函数和余弦函数叠加依然是周期函数。另一方面，任何函数均可分解为一个奇函数[ f(t) - f(-t) ] / 2和一个偶函数[ f(t) + f(-t) ] / 2，且奇函数叠加依然是奇函数，偶函数叠加依然是偶函数，而正弦函数和余弦函数正好分别是奇函数和偶函数。　　　　计算系数an和bn了。计算的诀窍是在等式两侧同时乘以cosnωt（或sinnωt），再进行积分。计算过程利用了三角函数的正交特性，即当m<>n时，cosmωt x cosnωt（或sinmωt xsinnωt等组合）在一个周期内积分为0。这样等式右侧的级数就只留下了an或bn那一项不为0。

我们来尝试分解一个周期为T，幅度为-E/2或+E/2的方波信号。由计算结果可见：an=0，即分解后只包含正弦波，这很容易理解，示图中的方波是奇函数，因而分解后不包含余弦波（偶函数）；n为偶数时bn=0，即分解后只包含基波和奇数次谐波，其角速率（ω=2π/T=2πf）分别为ω0、3ω0、5ω0…… 角速率（或频率）越高的谐波分量越小。

再反过来验证一下。如果把级数的前n项叠加，可以看到n越大输出波形越趋近于方波。n=5时叠加出方波雏形，n=11时已经接近方波，n=31相对于n=21线条更趋于平滑，但波形差别已经很小，可见高频成分对输出影响越来越小，和计算结果相吻合。

傅立叶级数有什么用呢？

用户不是复读机，语音信号也不是周期信号。傅立叶又说了：非周期信号，可以看作周期无限长的周期信号。当基波的周期T趋向于无穷大时，其谐波频率的间隔（即基波频率f）则趋向于无穷小。傅立叶级数的求和运算转换为积分运算。

因而，非周期信号也可分解为正弦波和余弦波，只是频率成分不再是离散的，而是连续的。我们把不同频率的权重称为频谱系数，这是一个以角速率ω（或频率f）为自变量的函数，可记录为F(ω)。通过f(t)计算F(ω)的（信号分解）过程称为“傅立叶变换”，通过F(ω)计算f(t)的（信号合成）过程则称为“傅立叶反变换”。

（上图对应错了？）时域周期频域离散；非周期 - 连续；时域离散 - 频域周期；

周期信号也可看作非周期信号的特例。周期信号的频谱具有三个特点：<1>离散性：频谱是离散而不是连续的；<2>谐波性：分量不为零的频率均为基波的整数倍；<3>收敛性：或n大于某个值时F(ω)=0，或n趋近于无穷大时F(ω)趋近于0。

时域中幅度随时间的不同变化，等同于频域中频谱的不同构成。语音信号在时域看没什么特征，在频域看特征却相当明显：当角频率ω大于一定值时，频谱系数F(ω)趋近为零。我们把具有这种特征的信号称为“带限信号”。 “频域中有限长”。

时域无限的信号在频域内是一定是带限的，频域无限的信号在时域内是有限的，时域上复杂的信号在频域上会比较简单等？？？？正确否？ 带限信号时域特性？

人的声带就像一把吉他，振动频率也是有范围的，主音一般在85~1100Hz之间，因而语音信号也是一个“带限信号”。奈奎斯特说：对于“带限信号”，只要采样频率不小于原始信号最大频率的两倍，就可以从采样完全恢复出原始信号。这就是“奈奎斯特采样定理”或“香农采样定理”。

采样定理：在时域中，采样相当于原始信号和采样脉冲（周期冲激信号）相乘，如图所示，f(t)为原始信号，p(t)为采样脉冲（假设采样频率为fs，则p(t)周期为Ts=1/fs），g(t) = f(t) x p(t)（这里的x表示乘积）即为采样信号。

根据“时域相乘等同于频域卷积”，在频域中，采样相当于原始信号和采样脉冲进行卷积，即G(f) = F(f) * P(f)（这里的*表示卷积），采样脉冲的频谱是一系列间隔为fs、强度为fs的冲激信号，原始信号和冲激信号δ( f – nfs )卷积相当于将原始信号频谱搬移到nfs位置，因而，采样相当于以fs为间隔对原始信号频谱进行周期性拓展。

从采样信号频谱可见，当fs > 2fi时（fi为原始信号最大频率），通过低通滤波器可将原始信号过滤出来。如果fs减小，周期性拓展的频谱相互靠近；如果fs减小到2fi，频谱会连在一起；如果fs进一步减小，频谱就会出现交叠（此时无法完全的恢复原始信号），我们把这种现象称为“混叠”（Aliasing）。显然，避免混叠的条件是采样频率fs不小于原始信号最大频率fi的两倍。

GSM是设计给“人”使用的，采样频率只要满足人声的需求就好，8KHz采样对低于1.1KHz的主音是足够的，对高于1.1KHz的泛音就有点吃力了，这也是电话里的声音不够“保真”的原因之一。（人类的听觉范围是20Hz ~20KHz，而CD采样频率是44.1KHz，所以CD音质对人而言已经相当保真，但放给电话那头听就不是那么回事了。）

下面具体说一下 量化，量化的本质是一种映射。

量化是把幅度划分为多个区间，记录采样值落入的区间，并以代表值（离散值）替代采样值（连续值）进行信号重建。

生活中比如描述一个人的年龄，年轻人老人，小孩，就是大体量化。小孩不可能为60多岁。。。

具体实现中，量化和编码往往是同时进行的。

用数学语言表达，量化是在量化范围[-V,+V]内，把连续幅度值的无限数集合{xk}映射成离散幅度值的有限数集合{yk}。量化器Q(x)的输入是信号幅度x，输出是L个量化值yk（k=1,2, … ,L）中的一个取值。当x落在xk与xk+1之间时，输出电平为yk。xk称为分层电平或判决阈值，Δk=xk+1-xk称为量化间隔，yk称为量化电平或重建电平。

如果在量化范围内量化间隔Δk是相等的，则称为均匀量化。

怎样才是理想的量化器呢？

在发送方，量化电平Q(x)和输入电平x之间总是存在量化误差（量化误差σq=输入电平x-量化电平Q(x)）。在接收方，量化误差的影响表现为量化噪声（σq平方的期望值），与输入信号x的概率密度px(x)有关。总量化噪声是不过载噪声和过载噪声之和。（σs平方=σq平方+σqo平方）

在 PCM 系统中，过载量化噪声是由于信号幅度过大,超过了量化器的动态范围产生的。为了保证不过载，要求信号的最大斜率不超过译码器的最大跟踪斜率。

在通信系统中，我们用信号噪声比S/N来衡量信号的失真程度，在量化中N就是量化噪声。显然，N越小则S/N越大。在某种程度上，输入信号功率S的大小是不可控的（不可预知的随机信号），而输出噪声功率N的大小是可控的（可以努力控制的），很容易产生这样的想法：令量化噪声最小的就是最佳量化器。

由于量化间隔Δ不再是相同的，均匀量化变成了非均匀量化。 A ，u率 13折线

非均匀量化不直接对输入信号进行量化，而是对输入信号非线性变换后再进行均匀量化，间接实现非均匀量化。更具体的，量化器通过非线性变换函数z=f(x)将采样电平x转换为z，再对z进行均匀量化。当然，接收方需要通过逆变换进行还原。我们希望f(x)对大信号进行压缩，对小信号进行扩张，因而f(x)又称为压扩函数。

通过令取最小值的方法，可以推算出所谓“最佳压扩特性”的f(x)和对应S/N特性，不过得到的f(x)过于复杂，难以实现。同时，“最佳”f(x)总量化噪声最小，但动态范围不大，并没有得到推广应用。为了同时满足高S/N和大动态范围，我们需要S/N特性曲线比较平坦的量化器。什么样的f(x)可以满足需求呢？

答案是对数型函数。令f(x)=(lnx)/B，可以推算出，在量化范围[0,+V]内S/N是由量化级数L、量化范围V和常数B决定的固定值，这样就有条件同时保证S/N和动态范围。对数型函数对小信号进行了扩张，对大信号进行压缩，也符合我们的期望。

实际上，使用对数型函数，主要是利用对大信号的压缩特性，对小信号的扩张特性，可以用其他函数替代。更理想的特性，是当x趋近于0时，z也趋近于0，这样量化范围[-V,0]和[0,+V]可以同时映射在z轴上。按照这个思路，CCITT (国际电话和电报咨询委员会)G.712建议提出了两个改进方案：A律对数压缩和µ律对数压缩。（我国和欧洲采用的是A律，而美国和日本采用的是µ律，我们重点看A律就好啦）

CCITT ( Consultative Committee for International Telephony and Telegraphy, 国际电话和电报咨询委员会)

A律对数压缩函数定义为：x在[0,1/A]区间，f(x) = Ax / (1+lnA)；在[1/A,1]区间，f(x) = (1+lnAx)/ (1+lnA)。µ律对数压缩函数定义为：x在[0,1]区间，f(x) = ln(1+µx) / ln(1+µ)。A和µ为压扩参数，表示压扩程度。（注意，此处x为归一化输入，即x = |原始输入xo| / V）

可以看到，A律压缩将归一化量化范围[0,1]（对应原始量化范围[0,+V]）分为两段：[0,1/A]和[1/A,1]，当x取值为1/A时，lnAx正好为0，是对数型函数输出正值和负值的分界点。在[1/A,1]范围f(x)使用的依然是对数特性曲线，而在[0,1/A]范围f(x)则用一条直线替代了原来的特性曲线。

早期A律压缩和µ律压缩是利用二极管的非线性实现的，压扩特性的稳定性和一致性无法保证。由于发送方和接收方的压扩特性难以匹配，信号失真增大。在数字电路技术成熟后，CCITT建议采用折线近似A律（13折线）和µ律（15折线）压扩特性，解决稳定性和一致性问题。示图中为13折线，和A=87.6时的A律压扩特性曲线十分接近。

你可能会问，图上不是只有8段折线吗，哪来的“13折线”？是这么回事：在整个量化范围内，A律压缩函数为奇函数。如果将负值部分呈现出来，z轴-1到+1之间共划分为16个段落（注意，段落并不是量化区间，只是段落内压扩特性相同），对应16段折线。靠近原点的4段折线斜率相同，16段折线中只有12处斜率发生变化，因而称为13折线。

不过，采用非均匀量化是不得已的选择，GSM采用的依然是均匀量化（不要打我）。GSM量化电平数L达到8192，原始编码位数n=log28192=13。n为8我们都觉得编码速率太大，n为13就更加无法接受了，必须在编码上做些功夫。？？？ GSM 均匀量化 ？？？

编码

经过采样和量化，发送方得到160个样本和量化电平，完成“简谱”的记录。接着，发送方对区间序号（量化电平）进行编码，将“简谱”转换为“二线谱”。到这里，“数字化”过程就完成了。这种通过采样、量化、编码形成的编码称为PCM编码（Pulse Code Modulation，脉冲编码调制。这里的“调制”和上一篇提到的概念相似，不过PCM调制的“载波”是脉冲而不是正弦波）。

最简单的，是将区间序号转换为二进制编码。举个例子，如果量化范围[-V,+V]划分为16个区间，区间序号按电平大小编号为0~15，将0~15转换为二进制，就得到对应编码：00002、00012、00102...… 11112。这种二进制码组称为NBC（Natural Binary Code，自然二进制码组，简称自然码）。

当然，最简单不一定最好。NBC容易理解和记忆，这是对人而言，对机器而言就不算什么优点了。编码本质上也是一种映射，理论上可逆的编码都是可行的。除了NBC，常见的编码还有两种：FBC（Folded Binary Code，折叠二进制码组，简称折叠码）和RBC（Reflected Binary Code，格雷二进制码组，简称格雷码）。

FBC第一位为极性码，表示输入电平是正值还是负值（量化器的输出就是编码器的输入），1表示正，0表示负。其余位表示幅度绝对值，以零电平为中心正负对称，即幅度绝对值相同的正负电平，除第一位外的编码相同，就像对称折叠一样。比如，如果量化电平-3的编码是00112，那么量化电平+3的编码就是10112，只有极性码不同。

RBC既看不出极性也看不出幅度，规律是相邻区间（或说相邻量化电平，量化器输出的是量化电平，而不是区间序号）的编码之间只有一位是不同的：比如，区间03、04编码是00102和01102，只有第二位不同；区间04、05编码是01102和01112，只有第四位不同。（在后续射频调制中会看到RBC的应用场景）

这么多个“C”，选哪个好呢？

在位数（效率）相同时，选信号失真最小的那个。量化在发送方进行，重建在接收方进行，但量化电平不是“嗖”的一下传过去的 —— 发送方要编码，接收方要解码，中间还要通过信道传送码流。在计算失真时，不仅要考虑量化误差，还要考虑信道误码的影响（假定量化噪声和误码噪声统计相互独立，则总噪声是量化噪声和误码噪声的叠加）。

举个例子。如果给你介绍个27岁（输入电平）的妹子，但限于信道条件（量化级数）只能告诉你25岁（量化电平）左右，如果不考虑信道误码，你收到的信息就是妹子25岁（重建电平），信息偏差（量化误差）不会大于5岁（量化间隔的一半）。

由于不好公开谈论妹子年龄，我们约定用3位编码表示8个年龄段，即0002表示5岁左右，0012表示15岁左右...... 1112表示75岁左右（假定你不顾世俗的目光）。我发送0102给你，表示妹子25岁左右。如果没有误码，你收到的也是0102，则偏差依然是2岁，即只受量化误差影响。

如果出现误码，你收到的可能另外7个编码中的一个，但是哪一个概率是不同的，只有1位出错的可能性远高于3位都出错。如果只考虑1位误码，则0102可能会变成1102、0002、0112，分别对应65岁、5岁和35岁，偏差分别是38岁、22岁和8岁，你不一定会拒绝妹子，但一定会觉得通信系统太不靠谱了。

可见，信道误码产生的失真远比量化误差严重。优化量化器只能减小量化误差，对信道误码则无能为力。要降低信道误码的影响，关键当然是减少误码率，这是下一篇的关注点（信道编码），这里还是重点分析信源编码—— 如何选择编码可以减少失真？

如果编码位数为8，采样频率为8KHz，则PCM编码速率为64Kbps。64Kbps放在PSTN都嫌大，放在GSM空中接口就更不行了，何况GSM采用13位均匀量化，原始编码速率达到104Kbps —— GSM需要更高效的编码方案，用更短的编码来表示相同的信息。

为啥PCM编码效率不高呢？

PCM就像第一个小孩，对每个样本都进行编码。实际上，短时间内的语音信号样本具有很强的相关性（可近似看成平稳过程），利用这个特点可以降低编码速率，DPCM（差分编码调制）和ΔM（增量调制）是这种思路的典型实现。

DPCM，即差分编码调制，差分就是只传送差值信息。发送方输入信号为S(k)，接收方重建信号为Sr(k)（输入和输出均是样本，因而是离散序列）。和PCM不同的是，量化器的输入不是S(k)，而是S(k)和预测信号Se(k)的差值d(k)。差值d(k)经过量化、编码、传送和解码后重建为dq(k)。由于传送的是差值信息，可以达到节省带宽的目的。

这个图看着容易犯晕，关键是理解预测器的输入和输出。预测器的输入是此前N个样本点，输出是N个样本点的线性叠加，如序号k样本的预测信号Se(k)，就是序号k-1、k-2… k-N样本的线性叠加，这可以通过延迟电路实现。发送方和接收方的预测（桃红色）和相加（黄色）是完全相同的。由此，重建信号Sr(k)=预测信号Se(k)+差值dq(k)，总的量化误差e(k)=d(k)-dq(k)，即不考虑误码时，量化误差只取决于差值的量化。

在DPCM的基础上，如果量化器和预测器能根据输入信号的统计特性自适应于最佳状态，则称为ADPCM（即自适应的DPCM），这里只关注利用“差分”节省带宽的思路，就不具体展开了。

ΔM可以看作一种特殊的DPCM：把预测函数修改为只取前一个样本（N=1），量化器简化为只判决差值正负（只有两个量化区间），DPCM就变成了ΔM。ΔM编码只要1位，对带宽要求更低。简单的说，ΔM就是发送方将输入样本和前一个样本进行比较，如果比前一个大，输出电平为+Δ，编码C(n)=1，如果比前一个小，输出电平为-Δ，编码C(n)=0。接收方根据编码重建。

ΔM具体实现可将量化器和编码器合并为判决器，并用脉冲发生器和积分器替代解码器，电路十分简单（可直接输入模拟信号）。ΔM信噪比与信号频率的平方成反比，语音高频段的信噪比下降较快，在ΔM的基础上又发展出Δ∑（增量总和调制）。Δ∑对输入信号先进行积分，降低高频成分幅度，再进行ΔM调制，接收方进行微分补偿。如果积分器和微分器是互补的则接收方可都省去，电路进一步简化。

再狠一些，就要脱离“波形编码”的思路了，根据语音信号的数学模型，直接提取语音信号的特征参量进行编码，这种编码方式称为“参量编码”。参量编码速率比波形编码低，但重建信号和原始信号波形差别很大，只能达到“可懂”的程度。LPC（线性预测编码）就是一种常见的参量编码。

GSM采用的是RPE-LTP（规则脉冲激励长期预测）编码，这是一种结合了波形编码和参量编码特点的混合编码，兼具波形编码高保真和参量编码速率低的优点。GSM中20毫秒语音信号经RPE-LTP编码后共输出260位，最终编码速率为13Kbps。篇幅所限，这里就不展开讲述RPE-LTP编码了，有机会再补充吧。

小结一下。

GSM的目标，是把通话一方的声音传送到另一方，反向亦然。在GSM看来，从语音信号转换为数字信号和从数字信号恢复为语音信号都是终端的事，网络主要负责传送数字信号。终端将语音信号分段，转换为数字信号再交给网络传送，这个过程称为信源编码，或通俗的称为语音信号的“数字化”。

语音信号的时间和幅度都是连续的，取值具有无限多可能性，要转换为有限长度的编码必须先离散化。在时间上的离散化称为采样，在幅度上的离散化称为量化。通过采样、量化、编码获得数字信号的方式称为PCM编码。PCM编码是一种波形编码，语音还原度高但编码效率低，可通过DPCM、ΔM、Δ∑调制等差分编码方式提高编码效率。

和PSTN、VoLTE相同，GSM将语音每20毫秒分成一段。GSM的采样频率为8KHz，采用13位的均匀量化，原始编码速率为104Kbps。GSM采用RPE-LTP编码，是一种结合了波形编码和参量编码特点的混合编码。GSM中20毫秒语音信号经RPE-LTP编码后共输出260位，最终编码速率为13Kbps，压缩比为8：1。

发表于 2020-02-19 15:01 西电西风阅读(234) 评论(0) 收藏举报