MP3 知识学习
前言
在刷 CTF 的时候遇到了 MP3 的题目,触及到知识盲区了,借这个机会学习一下,主要学习资料来自于 rlandj 老师的博客和 AI
https://www.cnblogs.com/shakin/p/4012765.html
1. 概述
MP3 文件是由帧 (frame) 构成的,帧是 MP3 文件最小的组成单位。
MP3 的全称应为 MPEG1 Layer-3 音频文件,MPEG(Moving Picture Experts Group)在汉语中译为活动图像专家组,特指活动影音压缩标准
MPEG音频文件是 MPEG1 标准中的声音部分,也叫 MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即Layer-1、Layer2、Layer3,且分别对应 MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层次的编码。
MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和 MP2 的压缩率分别为 4:1 和 6:1 - 8:1,而 MP3 的压缩率则高达 10:1-12:1
也就是说,一分钟 CD 音质的音乐,未经压缩需要 10MB 的存储空间,而经过 MP3 压缩编码后只有 1MB 左右
不过 MP3 对音频信号采用的是有损压缩方式,为了降低声音失真度,MP3 采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的 MP3 文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果
1.1 帧
- 帧(Frame):MP3文件的最小组成单位
- 每个帧包含一小段音频数据(通常约26毫秒)
- 文件由连续的帧序列构成
1.2 MPEG音频层次体系
MPEG音频层次体系是MPEG-1标准中音频压缩的分层设计,旨在为不同应用场景提供不同复杂度和压缩效率的解决方案。
应用场景分布:
- Layer-1应用:早期CD播放器、简单音频设备、实时音频处理
- Layer-2应用:数字广播(DAB)、卫星广播、专业音频设备
- Layer-3应用:互联网音乐分享、便携式音乐播放器、流媒体服务
Layer-3(MP3)的成功因素:
✅ 最佳的压缩率/质量平衡
✅ 适合互联网传输
✅ 硬件解码成本下降
✅ 开放的标准规范
1.3 感官编码技术
感官编码技术是MP3压缩的核心技术
感官编码技术(Perceptual Coding)是基于人类听觉心理学的音频压缩技术,通过模拟人耳的听觉特性,去除人类无法感知或难以察觉的音频信息。
感官编码技术的核心思想是"听不见的就不编码"
听觉掩蔽效应
频域掩蔽:强音掩盖邻近频率的弱音
时域掩蔽:强音掩盖前后时间的弱音
感官编码工作流程:
感官编码处理流程:
原始音频 → 频谱分析 → 心理声学分析 → 掩蔽阈值计算 → 量化噪声控制 → 编码输出
↓ ↓ ↓ ↓ ↓ ↓
PCM 子带分解 听觉模型应用 确定可听阈值 比特分配 MP3文件

浙公网安备 33010602011771号