音频基础知识

声音

声音本质上是人类可察觉范围内的气压周期性波动, 即声波。

声波是一种连续信号,在任意时间内的声音信号有无数个取值。

对于只能读取有限长数组计算机来说,我们需要将连续的声音信号转换为一个离散的序列,即数字化表示。

奈奎斯特采样定律:

当采样频率大于信号中最高频率的2倍时,采样之后的数字信号完整地保留了原始信号中的信息,不会发生混叠。

人耳可接受声音频率范围在20-20KHz,根据奈奎斯特采样定理,40KHz的采样率可以通过DAC还原出模拟信号,采样率越高,还原的声音越真实。

采样

采样是在固定时间间隔上测量连续信号,并将这些间隔信号转换为离散数值的过程。

指声音模拟信号通过ADC转换为离散的数字信号(一个一个的点组成),使用离散信号代替连续的模拟信号。(如果超过48k是人耳听不到的频率,没有实际意义)。

采样率

音频采样率,简单来说,是指录音设备在一秒钟内对声音信号的采样次数 ,单位为赫兹(Hz)。假如采样率为44100Hz,那就意味着每秒会对声音信号进行44100次采样。可以把它想象成给声音“拍照”,采样率越高,每秒钟拍摄的“照片”数量就越多。

采样率(sampling rate,也叫采样频率,sampling frequency)指的是每秒测量信号数值的次数,其单位为赫兹(Hz)。

常用采样率

  • 语音模型常用的采样率为16,000赫兹,即16kHz。
  • CD音质的音频一般采用44100Hz的采样率,即每秒钟测量了44100次信号的数值, 44.1kHz。
  • 高清(High-resolution)音频的采样率一般为192000Hz,即192kHz。

采样越高,声音的还原就越真实越自然,人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做 20000 个采样, 回放时就足可以满足人耳的需求。

所以 22050 的采样频率是常用的, 44100已是CD音质, 超过48000的采样对人耳已经没有意义。

采样率对音质的影响

  1. 频率范围的捕捉:根据奈奎斯特定理,采样率必须至少是最高音频频率的两倍,才能防止混叠效应 。

人耳能听到的声音频率范围大致在20Hz - 20kHz 。CD音质采用44.1kHz的采样率,能够覆盖人耳能听到的全频范围,因为它可以捕捉到最高22.05kHz的音频频率 。而更高的采样率,比如96kHz或192kHz,能捕捉到更广泛的频率范围,对于一些高频成分丰富的音乐,像古典音乐中的小提琴高音、电子音乐里的高频合成音效等,高采样率可以更精准地还原,使声音听起来更加清晰、明亮,细节更丰富 。

  1. 声音的保真度:高采样率可以更精确地还原声音的波形。

以一段钢琴演奏为例,低采样率下,可能会丢失一些钢琴按键按下时细微的起始瞬态,导致声音听起来比较模糊,缺乏钢琴演奏时那种清脆、灵动的感觉;而高采样率能更完整地记录这些起始瞬态以及琴弦震动的细微变化,让回放的声音更接近真实的钢琴演奏,仿佛演奏者就在你面前弹奏 。

采样深度(采样位宽、比特深度)

采样深度(bit depth)指的是每次采样时用于表示声音信号幅度的位数。采样深度越高,能够表示的声音幅度范围就越大,音质也会更好。

比特深度,又称采样精度或量化精度,指的是每个音频样本用多少位二进制数来表示 。常见的比特深度有8位、16位、24位和32位浮点 。

可以把比特深度想象成照片的分辨率,比特深度越高,分辨率越高,能够呈现的细节就越丰富 。

常用采样深度

  • 8位采样深度:每个采样值用8位二进制数表示,能够表示256个不同的声音幅度值。
  • 16位采样深度:每个采样值用16位二进制数表示,能够表示65536个不同的声音幅度值。
  • 24位采样深度:每个采样值用24位二进制数表示,能够表示16777216个不同的声音幅度值。
  • 32位采样深度:每个采样值用32位二进制数表示,能够表示4294967296个不同的声音幅度值。

采样深度对音质影响

  1. 动态范围:比特深度决定了音频的动态范围,即声音中最安静和最响亮部分之间的差值 。

8位音频每个采样点有256个离散值,动态范围较小;
16位音频每个采样点有65536个离散值,动态范围为96dB,这是CD音频的标准,能够满足大多数音乐的动态需求;
24位音频每个采样点有16777216个离散值,动态范围达到144dB ,可以记录更低电平的细节,对于一些动态范围较大的音乐,如交响乐,24位能更好地展现从轻柔的弦乐到激昂的铜管乐的变化 。

  1. 信噪比:更高的比特深度可以最大限度地降低本底噪声,产生更高的信噪比 。

例如,16位音频的本底噪声通常在 -96分贝左右,而24位音频的本底噪声约为 -144分贝 ,更低的本底噪声意味着声音更纯净,在播放安静的段落时,不会有明显的杂音干扰 。

采样深度(采样位宽)和采样频率的关系

img

采样率和比特深度共同决定了数字音频的质量和文件大小 。

较高的采样率和比特深度能够捕捉更细腻的声音细节,但也会产生更大的文件 。

例如,一个采样率为44.1kHz、比特深度为16位的立体声(双声道)音频文件,其比特率为44.1kHz × 16位 × 2 = 1411200bps 或1411.2kbps;而如果将比特深度提高到24位,比特率则变为44.1kHz × 24位 × 2 = 2116800bps 或2116.8kbps ,文件大小也会相应增加 。

在实际应用中,需要在音质和存储空间、传输带宽之间找到平衡 。

对于普通音乐听众,16位/44.1kHz的音频已经能提供很好的音质;而对于专业音频制作人员,可能会根据项目需求选择更高的采样率和比特深度 。

分析

采样本质是在横坐标(时间轴)对信号的数字化。

对在时间轴的信号,每隔一段时间,按一定的采样率(如44100)采集离散的、独立的点数据,最后根据这些离散的点可以画出一个波形(不一定是正弦波,声音叠加可以组成任意波形)。

量化本质是纵坐标(信号变化幅度值)对信号的数字化。

量化位数其实是对纵坐标的振幅量化,比如采样点6和采样点7,中间其实还可以再划分更多等级(及采样点)。

如果一个n位二进制数表示一个量化级,则表达量化级总数Y=2^n。n称为量化数,又称量化比特数,Y称为量化级数。

例如:8bit、16bit、32bit将振幅划分的等级
8bit:(1byte)把振幅细分到256个数,只能将振幅划分成2^8=256个等级;
16bit:(2byte)把振幅细分到2^16=65536等级。
32bit:(4byte)能把振幅细分到2^32=4294967296个等级。

编码

将采样、量化后的数据按照一定的格式存放。

编码:

把量化所得的结果,即单/多个声道的样本,以二进制的码字进行存放。

有两种存放方式:<1>.整形存放量化结果.<2>.浮点类型来存放量化结果.

大多数格式PCM样本数据使用整形来存放,对精度要求高的,则使用浮点型来表示PCM样本数据。

总结

  1. PCM(脉冲编码调制)

img

  1. 压缩算法

时域压缩:减少数据冗余
频域压缩:利用心理声学模型
熵编码:霍夫曼编码等优化

参考

链接1

链接2

链接3

链接4

posted @ 2025-10-09 17:34  潇汀  阅读(80)  评论(0)    收藏  举报