FFmpeg学习（三）音频基础

一：音频入门

（一）声音三要素

1.音调（音频）

2.音量（振幅）

3.音色（谐波）

粉色曲线是最接近自然界中的波形（基频+多种不同频率音频合并：如黄色、蓝色）
绿色曲线为基频（主频率），可以看到粉色曲线都是在主频率上微调（走势是基本一致的）
越接近正弦波，声音一般越好听，畸形或产生噪波

（二）模数转换

模拟信号和数字信号之间可以相互转换：

模拟信号一般通过PCM脉码调制(Pulse Code Modulation)方法量化为数字信号，即让模拟信号的不同幅度（采样大小）分别对应不同的二进制值，例如采用8位编码可将模拟信号量化为2^8=256个量级，实用中常采取24位或30位编码；

数字信号一般通过对载波进行移相(Phase Shift)的方法转换为模拟信号。

补充：通常的采样率（每秒采样次数）为48000、32000、16000等等;采样率越高，数据信号还原为模拟信号的还原度越高！！！

计算机、计算机局域网与城域网中均使用二进制数字信号，目前在计算机广域网中实际传送的则既有二进制数字信号，也有由数字信号转换而得的模拟信号。但是更具应用发展前景的是数字信号。

（三）音频原始数据

音视频常用格式有以下两种：
    PCM数据：纯音频数据;
    WAV（多媒体文件）：既可以存储PCM原始数据（多用），又可以存储压缩数据;
其实WAV就是在PCM原始数据之上，加上了一个头，包含了基本信息（使得播放器使用正确的参数去播放PCM数据）

采样率48000,位深度 16bit ,通道数2
知道这三个参数，那么基本我们就知道了
设备1秒内可以采集到多少音频数据是:
48000 * 16 * 2 = 1536000 位
48000 * 16 * 2 / 8 = 192000 字节.

也就是我的设备在一秒内可以采集192000

这么大的码流显然无法在我们的网络中传输！！！（不能带宽全给音视频传输吧），所以要进行音频数据压缩！！！

（四）音频帧大小的计算（采样率和时间间隔的区别）

采样率是指在1秒中的采样次数，而时间间隔是指每采取一帧音频数据所要时间间隔！！！

假设音频采样率 = 8000，采样通道 = 2，位深度 = 16，采样间隔 = 20ms

首先我们计算一秒钟总的数据量，采样间隔采用20ms的话，说明每秒钟需采集50次，这个计算大家应该都懂，那么总的数据量计算为

一秒钟总的数据量 =8000 * 2*16/8 = 32000

所以每帧音频数据大小 = 32000/50 = 640

每个通道样本数 = 640/2 = 320

解析：#define MAX_AUDIO_FRAME_SIZE 192000

是指双通道下，采用48k采样率，位深为16位，采样时间为1s
　　48000×2×16/8=192000字节

（五）PCM存储格式

PCM存储格式大体分为两种Planner和Packed
我们以双声道为例，L表示左声道，R表示右声道，如下为两种格式的存储方式：

Planner

LLLLLLLL… RRRRRRRR…

Packed

LRLRLRLRLR…

FFMpeg中对音频Format定义如下：

enum AVSampleFormat {
    AV_SAMPLE_FMT_NONE = -1,
    AV_SAMPLE_FMT_U8,          ///< unsigned 8 bits
    AV_SAMPLE_FMT_S16,         ///< signed 16 bits
    AV_SAMPLE_FMT_S32,         ///< signed 32 bits
    AV_SAMPLE_FMT_FLT,         ///< float
    AV_SAMPLE_FMT_DBL,         ///< double

    AV_SAMPLE_FMT_U8P,         ///< unsigned 8 bits, planar
    AV_SAMPLE_FMT_S16P,        ///< signed 16 bits, planar
    AV_SAMPLE_FMT_S32P,        ///< signed 32 bits, planar
    AV_SAMPLE_FMT_FLTP,        ///< float, planar
    AV_SAMPLE_FMT_DBLP,        ///< double, planar
    AV_SAMPLE_FMT_S64,         ///< signed 64 bits
    AV_SAMPLE_FMT_S64P,        ///< signed 64 bits, planar

    AV_SAMPLE_FMT_NB           ///< Number of sample formats. DO NOT USE if linking dynamically
};

我们这里以WASAPI为例，在windows中WASAPI捕获的数据格式总是FLT，即浮点Packed格式，而新版的FFMpeg中仅仅支持FLTP格式压缩(应该是需要自行编译FFMpeg库并附加其他压缩库，如有错请指正),目前网络中的大部分博客均是老版FFMpeg所以还都在使用其他格式。因此我们需要对PCM数据进行重新采样。

（六）WAV header

在查看音频数据压缩方式前，先了解WAV header的数据结构：

WAV例子：

因为是4字节对齐，所以每个sample大小4字节;而之所以是4字节，取决于blockAlign字段=（幅度大小×通道数）;

二：音频处理流程

（一）直播客户端的处理流程

我们讲解的音视频都是基于娱乐直播进行讲解的，所以我们必须对整个流程非常清楚。

如下图，是一个基本的直播客户端的处理流程图：

直播客户端分为几个模块，我们需要对每个模块做的事情非常清楚。总的来说我们直播客户端分为两个端：共享端和观看端。

共享端包含：音视频采集，音视频编码两个模块
观看端包含：音视频解码，音视频渲染两个模块。

1.音视频采集：

音频采集一般我们只需要简单调用一下api就能实现，每个操作系统都提供了相对应的api, 只是对于不同的平台各不相同。
如Android端有audioRecord, mediaRecord等，我们什么时候使用audioRecord,什么时候使用MediaRecord,这个我们需要非常清楚它的应用场景。
同样在IOS 端有苹果提供的AVFoundation框架提供了很多音视频采集的方法，其中有很常用的底层方法AudioUnit。

2.音视频编码：

我们采集到音视频之后并不能直接传输，因为这个数据太大了，超出了我们网路的设备的负载。
如果我们直接传输这么大量的数据，很容易出现各种问题，因此我们必须对这些数据进行压缩后再进行传输，这个压缩的过程就是对音视频的编码处理。
编码后的数据就是非常小的数据了。
对于编码这块的知识也非常多，我们后续也会详细讲解。
编码分为有损编码和无损编码。我们什么时候用有损编码，什么时候使用无损编码？ 有损编码去掉的是哪些数据？这些原理我们都需要很清楚明白。

3.音视频传输：

编码时候，我们就需要把数据传输到对端，这个传输的过程也是非常复杂的，需要对网络知识有个较好的理解。后续我也讲到这些。

4.音视频解码：

对端收到传输的数据后，需要对编码的数据进行解码，把压缩的数据还原后才能进行播放渲染。解码这块是跟编码相对应的，用什么方式编码，就需要用对应的方式解码。

5.音视频渲染：

解码获取得到原始数据之后，音频交给扬声器播放（实际是交给驱动，驱动交给驱动硬件模块进行处理），视频交给渲染器进行渲染。

（二）音频数据的流转（格式的转换）

我们需要知道我们采集数据后，采集的是什么数据，是PCM数据（模拟数据转数字信号，数字信号就是PCM）。然后经过编码之后，编码出的是什么格式的数据（aac/mp3）。这都是我们需要理解的。

对于录制的视频，我们最后将音视频保存入容器中;对于直播来说，我们并不需要最后一步，不需要将他存入容器中！！！

如下图是音频数据流的流转过程：

三：音频采集

（一）各平台音频采集方式

1.Android端音频采集：https://blog.csdn.net/u010029439/article/details/85056767

android平台上的音频采集一般就两种方式：

（1）使用MediaRecorder进行音频采集。

MediaRecorder 是基于 AudioRecorder 的 API(最终还是会创建AudioRecord用来与AudioFlinger进行交互) ，它可以直接将采集到的音频数据转化为执行的编码格式，并保存。
这种方案相较于调用系统内置的用用程序，便于开发者在UI界面上布局，而且系统封装的很好，便于使用，唯一的缺点是使用它录下来的音频是经过编码的，没有办法的得到原始的音频。
同时MediaRecorder即可用于音频的捕获也可以用于视频的捕获相当的强大。实际开发中没有特殊需求的话，用的是比较多的！

（2）使用AudioRecord进行音频采集。

AudioRecord 是一个比较偏底层的API,它可以获取到一帧帧PCM数据，之后可以对这些数据进行处理。
AudioRecord这种方式采集最为灵活，使开发者最大限度的处理采集的音频,同时它捕获到的音频是原始音频PCM格式的！
像做变声处理的需要就必须要用它收集音频。

在实际开发中，它也是最常用来采集音频的手段。如直播技术采用的就是AudioRecorder采集音频数据。

2.Ios端音频采集：https://blog.51cto.com/u_13505171/2057075

3.Windows音频采集：https://blog.csdn.net/machh/article/details/83546258

（二）FFMpeg采集音频方式（集成上面所有平台）

（1）通过命令方式（不同平台可能不同）：https://www.cnblogs.com/ssyfj/p/14576359.html

先查看可用设备：

其中card中：PCH与NVidia是声卡类型，可以通过查看cat /proc/asound/cards文件查看所有在主机中注册的声卡列表：

其中device设备中：

HDMI：是高清多媒体接口（High Definition Multimedia Interface，HDMI）是一种全数字化视频和声音发送接口，可以发送未压缩的音频及视频信号。
alc662是声卡：声卡 (Sound Card)也叫音频卡（港台称之为声效卡），是计算机多媒体系统中最基本的组成部分，是实现声波/数字信号相互转换的一种硬件。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换，输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备数字接口(MIDI)发出合成乐器的声音

所以：想要录取声音，我们必须选取card:0，其他的device与subdevice可以任意

选取对应设备获取输入：

ffmpeg -f alsa -i hw:0 alsaout.wav

（2）通过API方式：如下（三）

（三）FFmpeg编程采集音频

1.打开输入设备

#include <libavutil/log.h>
#include <libavcodec/avcodec.h>
#include <libavdevice/avdevice.h>
#include <libavformat/avformat.h>

int main(int argc,char* argv)
{
    char* devicename = "hw:0";
    char errors[1024];
    int ret;

    av_register_all();
    av_log_set_level(AV_LOG_DEBUG);
    //注册所有的设备，包括我们需要的音频设备
    avdevice_register_all();

    //获取输入(采集）格式
    AVInputFormat *iformat = av_find_input_format("alsa");

    //打开输入设备
    AVFormatContext* fmt_ctx=NULL;
    AVDictionary* options=NULL;
    ret = avformat_open_input(&fmt_ctx,devicename,iformat,&options);
    if(ret<0){
        av_strerror(ret,errors,1024);
        av_log(NULL,AV_LOG_ERROR,"Failed to open audio device,[%d]%s\n",ret,errors);
    }
    av_log(NULL,AV_LOG_INFO,"Success to open audio device\n");

    return 0;
}

View Code

gcc -o od 01OpenDevice.c -I /usr/local/ffmpeg/include/ -L /usr/local/ffmpeg/lib/ -lavutil -lavformat -lavcodec -lavdevice

2.从音频设备中读取音频数据

#include <libavutil/log.h>
#include <libavcodec/avcodec.h>
#include <libavdevice/avdevice.h>
#include <libavformat/avformat.h>

int main(int argc,char* argv)
{
    char* devicename = "hw:0";
    char errors[1024];
    int ret,count=0;

    AVFormatContext* fmt_ctx=NULL;
    AVDictionary* options=NULL;
    AVInputFormat *iformat=NULL;
    AVPacket packet;    //包结构

    av_register_all();
    av_log_set_level(AV_LOG_DEBUG);
    //注册所有的设备，包括我们需要的音频设备
    avdevice_register_all();

    //获取输入(采集）格式
    iformat = av_find_input_format("alsa");

    //打开输入设备
    ret = avformat_open_input(&fmt_ctx,devicename,iformat,&options);
    if(ret<0){
        av_strerror(ret,errors,1024);
        av_log(NULL,AV_LOG_ERROR,"Failed to open audio device,[%d]%s\n",ret,errors);
    }
    
    av_log(NULL,AV_LOG_INFO,"Success to open audio device\n");
    //开始从设备中读取数据
    while((ret=av_read_frame(fmt_ctx,&packet))==0&&count++<500){
        av_log(NULL,AV_LOG_INFO,"Packet size:%d(%p),cout:%d\n",packet.size,packet.data,count);

        //释放空间
        av_packet_unref(&packet);
    }

    //关闭设备、释放上下文空间
    avformat_close_input(&fmt_ctx);
    return 0;
}

View Code

gcc -o gap 02GetAudioPacket.c -I /usr/local/ffmpeg/include/ -L /usr/local/ffmpeg/lib/ -lavutil -lavformat -lavcodec -lavdevice

包的大小同码率/8=字节数

3.录制成为音频文件

创建文件--->将音频数据写入到文件中--->关闭文件

#include <stdio.h>
#include <libavutil/log.h>
#include <libavcodec/avcodec.h>
#include <libavdevice/avdevice.h>
#include <libavformat/avformat.h>

int main(int argc,char* argv)
{
    char* devicename = "hw:0";
    char errors[1024];
    int ret,count=0,len;
    FILE* fp = NULL;

    AVFormatContext* fmt_ctx=NULL;
    AVDictionary* options=NULL;
    AVInputFormat *iformat=NULL;
    AVPacket packet;    //包结构

    av_register_all();
    av_log_set_level(AV_LOG_DEBUG);
    //注册所有的设备，包括我们需要的音频设备
    avdevice_register_all();

    //获取输入(采集）格式
    iformat = av_find_input_format("alsa");

    //打开输入设备
    ret = avformat_open_input(&fmt_ctx,devicename,iformat,&options);
    if(ret<0){
        av_strerror(ret,errors,1024);
        av_log(NULL,AV_LOG_ERROR,"Failed to open audio device,[%d]%s\n",ret,errors);
    }
    
    av_log(NULL,AV_LOG_INFO,"Success to open audio device\n");
    //打开文件
    fp = fopen("./audio.pcm","wb");
    if(fp==NULL){
        av_log(NULL,AV_LOG_ERROR,"Failed to open out file,[%d]%s\n",ret,errors);
        goto fail;
    }

    //开始从设备中读取数据
    while((ret=av_read_frame(fmt_ctx,&packet))==0&&count++<500){
        av_log(NULL,AV_LOG_INFO,"Packet size:%d(%p),cout:%d\n",packet.size,packet.data,count);
        len = fwrite(packet.data,packet.size,1,fp);
        fflush(fp);
        if(len!=packet.size){
            av_log(NULL,AV_LOG_WARNING,"Warning,Packet size:%d not equal writen size:%d\n",len,packet.size);
        }else{
            av_log(NULL,AV_LOG_INFO,"Success write Packet to file");
        }
        //释放空间
        av_packet_unref(&packet);
    }

fail:
    if(fp)
        fclose(fp);
    //关闭设备、释放上下文空间
    avformat_close_input(&fmt_ctx);
    return 0;
}

View Code

gcc -o wad 03WriteAudioData.c -I /usr/local/ffmpeg/include/ -L /usr/local/ffmpeg/lib/ -lavutil -lavformat -lavcodec -lavdevice

注意：播放时需要指定格式，通过查看配置文件获取采样率等信息

sudo gedit /etc/pulse/daemon.conf

ffplay -ar 44100 -ac 2 -f s16le audio.pcm

四：音频压缩

（一）音频有损压缩技术（消除冗余信息）

注意：频域遮蔽效应和时域遮蔽效应的纵轴都是声音强度;
频域遮蔽的横轴是频率，是指在频率相近的声音，在一定的范围内（遮蔽门槛下的声音），声音强度大的会遮蔽声音强度小的声音。
时域遮蔽的横轴是时间，是指在时间相近的声音，声音强度大的会遮蔽声音强度小的声音，而且在发声前的部分较弱的声音（前遮蔽）和发声后的部分较弱的声音都会被屏蔽掉（后遮蔽）。

（二）音频无损压缩技术

哈夫曼编码
算术编码
香农编码

（三）音频编码过程

原始数据--->传入给两个模块进行处理-------------------------------->将两种数据（真正需要编码的数据）汇总，进行量化，编码-------->形成比特流
           1.时域转频域变换（将一段长时间的数据，转换为多种频段的数据，从而获取我们需要的频段数据）
           2.心理声学模型（前面的有损压缩过程）

（四）常见的音频编码器

其中最常见的是OPUS和AAC：延迟小，压缩率高

实时互动系统可以用opus（在线教育、会议），其中WebRTC默认使用OPUS
泛娱乐化直播一般使用AAC（最广泛），opus一般不支持，推广上有些困难
两个系统融合，需要将opus与AAC互转

speex：回音消除，降噪模块等可实现。
G.711:有些会与固话相联系，固话用的就是G.711，或者G.722 （声音损失严重，但是可以在窄宽带下传输）

音频编码器性能质量对比：

横轴：比特率越大（质量越好），但是传输速度可能较低;所以对于实时性要求高的，如OPus，在窄带时，会降低质量，从而提高传输速度
纵轴：带宽质量（窄带、宽带、全带），硬件设施有关

音频编码码率对比：（结合上面性能图）

纵轴是延迟（0～200ms），横轴是码率。延迟越低，码率越小：

Opus延迟较低，所以在20ms内，码率从0～20kb/s
而在码率较小时（0～20kb/s），AAC延迟则较大，在200ms附近，所以AAC不适用于实时性直播，适合于有一定延迟的直播。如果使用AAC于实时通信，那么可以选择AAC-LD低延迟类型

五：AAC编码

（一）AAC编码器介绍

MP3相对来说存储的压缩比较低，压缩后的文件还是比较大。而AAC压缩率高，压缩后文件较小，并且保真性能好，还原数据后，与原始数据相似性高。
AAC常用规格中：AAC HE V1使用较少，因为被V2取代。通过下面AAC规格可以了解：
　　AAC LC 最基础
　　AAC HE V1 = AAC LC + SBR
　　AAC HE V2 = AAC HE V1 + PS

AAC LC：码流越大（AAC LC，128k），存储信息量越大，音质越好，保真性高。码流越小，压缩比越高，去除的冗余信息多，会对重要的数据造成一定的损失。

AAC HE：按频谱分别保存;低频（基频）保存主要成分，高频（谐频）和音色有很大关系，将高频单独放大去保证音质。实现进一步压缩。

AAC HE V2：参数化，保存差异，进一步减少码流大小。

对于AAC格式：ADTS相对于ADIF而言，虽然每一帧前面都有header信息，但是却可以实现随时拖动播放，不必每次从头播放

补充：音频一帧数据计算---假设音频采样率 = 8000，采样通道 = 2，位深度 = 8，采样间隔 = 20ms

首先我们计算一秒钟总的数据量，采样间隔采用20ms的话，说明每秒钟需采集50次(1s=1000ms)，那么总的数据量计算为

一秒钟总的数据量 =8000 * 2*8/8 = 16000（Byte）

所以每帧音频数据大小 = 16000/50 =320（Byte）

每个通道样本数 = 320/2 = 160（Byte）

（二）ADTS格式

ADTS头，适用性广，更加适用于流的传输，尤其对于直播系统

每一帧的ADTS的头文件都包含了音频的采样率，声道，帧长度等信息，这样解码器才能解析读取。

一般情况下ADTS的头信息都是7个字节，分为2部分：

adts_fixed_header();

adts_variable_header();

1.adts_fixed_header();

syncword ：总是0xFFF, 代表一个ADTS帧的开始, 用于同步。解码器可通过0xFFF确定每个ADTS的开始位置。因为它的存在，解码可以在这个流中任何位置开始, 即可以在任意帧解码。
ID：MPEG Version: 0 for MPEG-4，1 for MPEG-2
Layer：always: '00'
protection_absent：Warning, set to 1 if there is no CRC and 0 if there is CRC  #0表示需要CRC校验，1不需要
profile：表示使用哪个级别的AAC，如01 Low Complexity(LC) -- AAC LC; profile的值等于 Audio Object Type的值减1。 profile=(audio_object_type - 1)

sampling_frequency_index：采样率的下标

channel_configuration：声道数，比如2表示立体声双声道

2.adts_variable_header();

aac_frame_length：一个ADTS帧的长度包括ADTS头和AAC原始流。frame length, this value must include 7 or 9 bytes of header length:
　　　　　　　　　　　　aac_frame_length = (protection_absent == 1 ? 7 : 9) + size(AACFrame)

　　　　　　　　　　　　protection_absent=0时, header length=9bytes
　　　　　　　　　　　　protection_absent=1时, header length=7bytes
adts_buffer_fullness：0x7FF 说明是码率可变的码流。
number_of_raw_data_blocks_in_frame：表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。
　　　　　　　　　　　　　　　　　　　　　　所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有一个AAC数据块。
　　　　　　　　　　　　　　　　　　　　　　(一个AAC原始帧包含一段时间内1024个采样及相关数据)

3.代码实现头部的添加：https://www.cnblogs.com/ssyfj/p/14579909.html

void adts_header(char *szAdtsHeader, int dataLen){

    int audio_object_type = 2;             //通过av_dump_format显示音频信息或者ffplay获取多媒体文件的音频流编码acc（LC），对应表格中Object Type ID -- 2
    int sampling_frequency_index = 4;      //音频信息中采样率为44100 Hz 对应采样率索引0x4
    int channel_config = 2;                   //音频信息中音频通道为双通道2

    int adtsLen = dataLen + 7;             //采用头长度为7字节，所以protection_absent=1   =0时为9字节，表示含有CRC校验码

    szAdtsHeader[0] = 0xff;         //syncword ：总是0xFFF, 代表一个ADTS帧的开始, 用于同步. 高8bits

    szAdtsHeader[1] = 0xf0;         //syncword:0xfff                          低4bits
    szAdtsHeader[1] |= (0 << 3);    //MPEG Version:0 : MPEG-4(mp4a),1 : MPEG-2  1bit
    szAdtsHeader[1] |= (0 << 1);    //Layer:0                                   2bits 
    szAdtsHeader[1] |= 1;           //protection absent:1  没有CRC校验            1bit

    szAdtsHeader[2] = (audio_object_type - 1)<<6;            //profile=(audio_object_type - 1) 表示使用哪个级别的AAC  2bits
    szAdtsHeader[2] |= (sampling_frequency_index & 0x0f)<<2; //sampling frequency index:sampling_frequency_index  4bits 
    szAdtsHeader[2] |= (0 << 1);                             //private bit:0                                      1bit
    szAdtsHeader[2] |= (channel_config & 0x04)>>2;           //channel configuration:channel_config               高1bit

    szAdtsHeader[3] = (channel_config & 0x03)<<6;     //channel configuration:channel_config      低2bits
    szAdtsHeader[3] |= (0 << 5);                      //original：0                               1bit
    szAdtsHeader[3] |= (0 << 4);                      //home：0                                   1bit ----------------固定头完结，开始可变头
    szAdtsHeader[3] |= (0 << 3);                      //copyright id bit：0                       1bit  
    szAdtsHeader[3] |= (0 << 2);                      //copyright id start：0                     1bit
    szAdtsHeader[3] |= ((adtsLen & 0x1800) >> 11);    //frame length：value                       高2bits  000|1 1000|0000 0000

    szAdtsHeader[4] = (uint8_t)((adtsLen & 0x7f8) >> 3);     //frame length:value    中间8bits             0000  0111 1111 1000
    
    szAdtsHeader[5] = (uint8_t)((adtsLen & 0x7) << 5);       //frame length:value    低 3bits              0000  0000 0000 0111
    //number_of_raw_data_blocks_in_frame：表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有一个AAC数据块。(一个AAC原始帧包含一段时间内1024个采样及相关数据)
    szAdtsHeader[5] |= 0x1f;                                 //buffer fullness:0x7ff 高5bits   0x7FF 说明是码率可变的码流 ---> 111 1111 1111 00----> 1 1111 1111 1100--->0x1f与0xfc

    szAdtsHeader[6] = 0xfc;                                        
}

4.AAC首部分析：https://www.p23.nl/projects/aac-header/

5.命令行提取AAC文件

部分参数可以通过ffplay播放来获取：

ffmpeg -i gfxm.mp4 -vn -c:a aac -ar 44100 -channels 2 -profile:a 2 1.aac

ffmpeg -i gfxm.mp4 -vn -c:a libfdk_aac -ar 44100 -channel 2 -profile:a aac_he_v2 1.aac

补充：通过profile参数，修改编码级别，2表示修改为AAC SSR级别

ffplay 1.aac

编程实现编码器：如七所示

六：音频重采样

（一）什么是音频重采样

1.为什么需要重采样？

2.如何知道是否需要进行重采样？

3.重采样的步骤

4.重采样相关API

（二）编程实现音频重采样

1.补充：

音频通道布局

FFMpeg笔记（三）音频处理基本概念及音频重采样

2.代码实现

#include <stdio.h>
#include <libavutil/log.h>
#include <libavdevice/avdevice.h>
#include <libavformat/avformat.h>
#include <libswresample/swresample.h>

void rec_audio(){
    char* devicename = "hw:0";
    char errors[1024];
    int ret,count=0,len;
    FILE* fp = NULL;

    AVFormatContext* fmt_ctx=NULL;
    AVDictionary* options=NULL;
    AVInputFormat *iformat=NULL;
    AVPacket packet;    //包结构

    av_register_all();
    av_log_set_level(AV_LOG_DEBUG);
    //注册所有的设备，包括我们需要的音频设备
    avdevice_register_all();

    //获取输入(采集）格式
    iformat = av_find_input_format("alsa");

    //打开输入设备
    ret = avformat_open_input(&fmt_ctx,devicename,iformat,&options);
    if(ret<0){
        av_strerror(ret,errors,1024);
        av_log(NULL,AV_LOG_ERROR,"Failed to open audio device,[%d]%s\n",ret,errors);
    }
    
    av_log(NULL,AV_LOG_INFO,"Success to open audio device\n");
    //打开文件
    fp = fopen("./audio_2.pcm","wb");
    if(fp==NULL){
        av_log(NULL,AV_LOG_ERROR,"Failed to open out file\n");
        goto fail;
    }

    //----------创建重采样的上下文
    SwrContext* swr_cxt = NULL;
    swr_cxt = swr_alloc_set_opts(NULL,                    //设置已经创建好的上下文，如果没有，则为NULL
                                AV_CH_LAYOUT_STEREO,    //设置输出目标的通道布局（双声道，立体声，...,方位增宽)
                                AV_SAMPLE_FMT_FLT,        //设置输出目标的采样格式，设置为32位浮点型
                                44100,                    //设置输出目标的采样率
                                AV_CH_LAYOUT_STEREO,    //输入数据的通道布局，是双声道
                                AV_SAMPLE_FMT_S16,        //输入数据的采样格式为s16le
                                44100,                    //输入的采样率
                                0,                        //日志级别
                                NULL);                    //日志上下文

    if(!swr_cxt){
        av_log(NULL,AV_LOG_ERROR,"Failed to set swr context\n");
        goto fail;
    }

    //----------初始化上下文
    if(swr_init(swr_cxt)<0){
        av_log(NULL,AV_LOG_ERROR,"Failed to initial swr context\n");
        goto fail;
    }

    //----------构造输入、输出空间
    uint8_t** src_data = NULL;
    uint8_t** dst_data = NULL;
    int src_linesize = 0,dst_linesize=0;
    av_samples_alloc_array_and_samples(&src_data,            //前面两个传入地址，用作输出;其他作为输入数据
                                        &src_linesize,
                                        2,                    //双通道
                                        512,                //单通道采样个数 每个packet大小2048，2048/2（和下面采样格式有关）=1024个采样个数，1024/2（这里是双通道）=512（是单通道）
                                        AV_SAMPLE_FMT_S16,    //采样格式
                                        0);                    //对齐


    av_samples_alloc_array_and_samples(&dst_data,            //前面两个传入地址，用作输出;其他作为输入数据
                                        &dst_linesize,
                                        2,                    //双通道
                                        512,                //输出的单通道采样个数，和上面一致即可，只是对每个采样进行了数据转换，对内部数据重采样，没有修改采样个数
                                        AV_SAMPLE_FMT_FLT,    //采样格式
                                        0);                    //对齐

    //开始从设备中读取数据
    while((ret=av_read_frame(fmt_ctx,&packet))==0&&count++<500){
        av_log(NULL,AV_LOG_INFO,"Packet size:%d(%p),cout:%d\n",packet.size,packet.data,count);

        //----------先对数据进行重采样，然后写入文件中
        memcpy((void*)src_data[0],(void*)packet.data,packet.size);

        swr_convert(swr_cxt,                                //上下文
                    dst_data,                                //输出数组（双指针）
                    512,                                    //每个通道的采样数
                    (const uint8_t**)src_data,                //输入数据，来自与packet.data，要改造格式
                    512);                                    //输入的通道采样数

        len = fwrite(dst_data[0],1,dst_linesize,fp);
        fflush(fp);

        if(len!=dst_linesize){
            av_log(NULL,AV_LOG_WARNING,"Warning,Packet size:%d not equal writen size:%d\n",len,packet.size);
        }else{
            av_log(NULL,AV_LOG_INFO,"Success write Packet to file\n");
        }
        //释放空间
        av_packet_unref(&packet);
    }

fail:

    if(fp)
        fclose(fp);
    //----------释放空间
    if(src_data){
        av_freep(&src_data[0]);
    }
    av_freep(&src_data);

    if(dst_data){
        av_freep(&dst_data[0]);
    }
    av_freep(&dst_data);

    swr_free(&swr_cxt);
    
    //关闭设备、释放上下文空间
    avformat_close_input(&fmt_ctx);
    return ;
}

int main(int argc,char* argv)
{
    rec_audio();
    return 0;
}

View Code

gcc -o ra 04ResampleAudio.c -I /usr/local/ffmpeg/include/ -L /usr/local/ffmpeg/lib/ -lavutil -lavformat -lavcodec -lavdevice -lswresample

七：创建AAC编码器

见六：Audio:pcm_s16le,说明数据为原始pcm数据，没有进行编码处理！！！

（一）FFmpeg编码过程

1.创建并打开编码器

2.获取输入输出数据

avcodec_send_frame:将帧（frame）发送给编码器
avcodedc_receive_packet:通过receive_packet获取编码后的数据（packet）

一般来说AVPacket中存放的是编码后的数据，而AVFrame中存放的未编码的数据！！

疑问：为什么前面实现代码，是从设备中获取packet，而不是上面所说的frame？？

与前面avformat_open_input有关，是将打开的设备当作多媒体文件进行处理。而多媒体文件肯定是编码后的数据。所以会认为从设备中读取的数据应该是编码后的数据，使用pakcet获取。而实际上数据类型应该是frame。
所以从设备中读取的数据并没有走编码过程，实际数据还是pcm数据（见六图中Audio:pcm_s16le）

（二）FFmpeg代码实现（重采样+编码为AAC）

#include <stdio.h>
#include <libavutil/log.h>
#include <libavcodec/avcodec.h>
#include <libavdevice/avdevice.h>
#include <libavformat/avformat.h>
#include <libswresample/swresample.h>

SwrContext* initSwrCxt(uint8_t*** src_data,int* src_linesize,uint8_t*** dst_data,int* dst_linesize){
    //创建重采样的上下文
    SwrContext* swr_cxt = NULL;
    swr_cxt = swr_alloc_set_opts(NULL,                    //设置已经创建好的上下文，如果没有，则为NULL
                                AV_CH_LAYOUT_STEREO,    //设置输出目标的通道布局（双声道，立体声，...,方位增宽)
                                AV_SAMPLE_FMT_S16,        //设置输出目标的采样格式，设置为32位浮点型
                                44100,                    //设置输出目标的采样率
                                AV_CH_LAYOUT_STEREO,    //输入数据的通道布局，是双声道
                                AV_SAMPLE_FMT_S16,        //输入数据的采样格式为s16le
                                44100,                    //输入的采样率
                                0,                        //日志级别
                                NULL);                    //日志上下文

    if(!swr_cxt){
        av_log(NULL,AV_LOG_ERROR,"Failed to set swr context\n");
        return NULL;
    }

    //初始化上下文
    if(swr_init(swr_cxt)<0){
        av_log(NULL,AV_LOG_ERROR,"Failed to initial swr context\n");
        return NULL;
    }

    //构造输入、输出空间
    av_samples_alloc_array_and_samples(src_data,            //前面两个传入地址，用作输出;其他作为输入数据
                                        src_linesize,
                                        2,                    //双通道
                                        512,                //单通道采样个数 每个packet大小2048，2048/2（和下面采样格式有关）=1024个采样个数，1024/2（这里是双通道）=512（是单通道）
                                        AV_SAMPLE_FMT_S16,    //采样格式
                                        0);                    //对齐


    av_samples_alloc_array_and_samples(dst_data,            //前面两个传入地址，用作输出;其他作为输入数据
                                        dst_linesize,
                                        2,                    //AV_CH_LAYOUT_SURROUND 三通道
                                        512,                //输出的单通道采样个数，和上面一致即可，只是对每个采样进行了数据转换，对内部数据重采样，没有修改采样个数
                                        AV_SAMPLE_FMT_S16,    //采样格式
                                        0);                    //对齐
    return swr_cxt;
}

AVCodecContext* openCodec(){
        //---------1.打开编码器
    AVCodec* codec = avcodec_find_encoder_by_name("libfdk_aac");    //内部要求的采样大小就是是s16le------重点
    //---------2.创建上下文
    AVCodecContext* codec_ctx = avcodec_alloc_context3(codec);

    //------------------设置上下文参数
    codec_ctx->sample_fmt = AV_SAMPLE_FMT_S16;            //设置采样格式（该字段是被固定了），上面说到，libfdk_aac处理16位，所以设置为16位。所以我们一般是将其他格式进行重采样为16位
    codec_ctx->channel_layout = AV_CH_LAYOUT_STEREO;    //设置通道布局
    codec_ctx->channels = 2;                            //设置通道数（其实和上面一样）
    codec_ctx->sample_rate = 44100;                        //设置采样率
    codec_ctx->profile = FF_PROFILE_AAC_HE;            //设置AAC编码格式，如果设置了这个字段，就不需要设置下面的比特率了
    //codec_ctx->bit_rate = 64000;                            //设置比特率，64k;对于每个编码方式，都有最低编码码率。AAC_LC:128k AAC HE:64k AAC HE V2:32k

    //---------3.打开编码器
    if(avcodec_open2(codec_ctx,codec,NULL)<0){
        av_log(NULL,AV_LOG_ERROR,"Failed to open libfdk_aac context\n");
        return NULL;
    }

    return codec_ctx;
}

void encode(AVCodecContext* codec_ctx,AVFrame* frame,AVPacket* newpkt,FILE* fp){
    //--------开始进行编码操作---------重点
    int ret = avcodec_send_frame(codec_ctx,frame);    //将frame交给编码器进行编码;内部会将一帧数据挂到编码器的缓冲区

    while(ret>=0){    //只有当frame被放入缓冲区之后（数据设置成功），并且下面ret表示获取缓冲区数据完成后才退出循环。因为可能一个frame对应1或者多个packet，或者多个frame对应1个packet

        ret = avcodec_receive_packet(codec_ctx,newpkt);    //从编码器中获取编码后的packet数据，处理多种情况

        if(ret<0){
            if(ret==AVERROR(EAGAIN)||ret==AVERROR_EOF){    //读完数据
                return;
            }else{    //编码器出错
                av_log(NULL,AV_LOG_ERROR,"avcodec_receive_packet error! [%d] %s\n",ret,av_err2str(ret));
                return;
            }
        }

        int len = fwrite(newpkt->data,1,newpkt->size,fp);
        fflush(fp);
        
        if(len!=newpkt->size){
            av_log(NULL,AV_LOG_WARNING,"Warning,newpkt size:%d not equal writen size:%d\n",len,newpkt->size);
        }else{
            av_log(NULL,AV_LOG_INFO,"Success write newpkt to file\n");
        }
    }
}

AVFrame* initFrame(){
    AVFrame* frame = av_frame_alloc();    //分配frame空间，但是数据真正被存放在buffer中
    if(!frame){
        av_log(NULL,AV_LOG_ERROR,"Failed to create frame\n");
        return NULL;
    }

    frame->nb_samples = 512;            //单通道采样数，和前面重采样配置一样
    frame->format = AV_SAMPLE_FMT_S16;    //采样大小
    frame->channel_layout = AV_CH_LAYOUT_STEREO;
    av_frame_get_buffer(frame,0);        //第二个参数是对齐  512*2*2 = 2048
    if(!frame->data[0]){
        av_log(NULL,AV_LOG_ERROR,"Failed to create frame buffer\n");
        return NULL;
    }
    return frame;
}

void rec_audio(){
    char* devicename = "hw:0";
    char errors[1024];
    int ret,count=0,len;
    FILE* fp = NULL;

    AVFormatContext* fmt_ctx=NULL;    //格式上下文获取-----av_read_frame获取packet
    AVDictionary* options=NULL;
    AVInputFormat *iformat=NULL;
    AVPacket packet;    //包结构

    av_register_all();
    av_log_set_level(AV_LOG_DEBUG);
    //注册所有的设备，包括我们需要的音频设备
    avdevice_register_all();

    //获取输入(采集）格式
    iformat = av_find_input_format("alsa");

    //打开输入设备
    ret = avformat_open_input(&fmt_ctx,devicename,iformat,&options);    //----打开输入设备，初始化格式上下文和选项
    if(ret<0){
        av_strerror(ret,errors,1024);
        av_log(NULL,AV_LOG_ERROR,"Failed to open audio device,[%d]%s\n",ret,errors);
    }
    
    av_log(NULL,AV_LOG_INFO,"Success to open audio device\n");
    //打开文件
    fp = fopen("./audio_2.aac","wb");
    if(fp==NULL){
        av_log(NULL,AV_LOG_ERROR,"Failed to open out file\n");
        goto fail;
    }

    //创建重采样的上下文
    SwrContext* swr_cxt = NULL;    //------根据initSwrCxt中的swr_alloc_set_opts创建重采样上下文
    uint8_t** src_data = NULL;
    uint8_t** dst_data = NULL;
    int src_linesize = 0,dst_linesize=0;

    swr_cxt = initSwrCxt(&src_data,&src_linesize,&dst_data,&dst_linesize);

    if(!swr_cxt){
        av_log(NULL,AV_LOG_ERROR,"Failed to set swr context or initial swr context\n");
        goto fail;
    }


    //-------获取编码器上下文
    AVCodecContext* codec_ctx = openCodec();    //---------根据openCodec中的avcodec_alloc_context3分配编码器的上下文
    if(!codec_ctx)
        goto fail;
    
    //-------设置输入数据frame
    AVFrame* frame = initFrame();    //分配frame空间，但是数据真正被存放在buffer中
    if(!frame){
        av_log(NULL,AV_LOG_ERROR,"Failed to create frame\n");
        goto fail;
    }

    //-------设置输入数据packet
    AVPacket* newpkt = av_packet_alloc();
    if(!newpkt){
        av_log(NULL,AV_LOG_ERROR,"Failed to create newpkt\n");
        goto fail;
    }

    //开始从设备中读取数据
    while((ret=av_read_frame(fmt_ctx,&packet))==0&&count++<500){
        av_log(NULL,AV_LOG_INFO,"Packet size:%d(%p),cout:%d\n",packet.size,packet.data,count);

        //先对数据进行重采样，然后写入文件中
        memcpy((void*)src_data[0],(void*)packet.data,packet.size);

        swr_convert(swr_cxt,                                //上下文
                    dst_data,                                //输出数组（双指针）
                    512,                                    //每个通道的采样数
                    (const uint8_t**)src_data,                //输入数据，来自与packet.data，要改造格式
                    512);                                    //输入的通道采样数

        //--------将重采样后的数据转存入frame中去
        memcpy((void*)frame->data[0],dst_data[0],dst_linesize);
        //将编码数据写入文件
        encode(codec_ctx,frame,newpkt,fp);

        //释放空间
        av_packet_unref(&packet);
    }
    //---------强制将编码器缓冲区中的音频数据进行编码输出
    encode(codec_ctx,NULL,newpkt,fp);
fail:

    if(fp)
        fclose(fp);

    //释放空间
    if(src_data){
        av_freep(&src_data[0]);
    }
    av_freep(&src_data);

    if(dst_data){
        av_freep(&dst_data[0]);
    }
    av_freep(&dst_data);

    //释放重采样上下文
    swr_free(&swr_cxt);
    //释放packet和frame
    if(frame){
        av_frame_free(&frame);
    }

    if(newpkt){
        av_packet_free(&newpkt);
    }
    //释放编码器上下文
    if(codec_ctx){
        avcodec_free_context(&codec_ctx);
    }
    
    //关闭设备、释放上下文空间
    avformat_close_input(&fmt_ctx);
    return ;
}

int main(int argc,char* argv)
{
    rec_audio();
    return 0;
}

View Code

gcc -o ce 05CreateEncoder.c -I /usr/local/ffmpeg/include/ -L /usr/local/ffmpeg/lib/ -lavutil -lavformat -lavcodec -lavdevice -lswresample

可以发现，通过编码后的数据播放时的参数Audio: aac(HE-AAC)是经过AAC编码的，不同于六中的PCM原始数据！！！

posted @ 2021-04-25 21:17 山上有风景阅读(4410) 评论(6) 收藏举报

刷新页面返回顶部

山上有风景

周围的人都比你厉害，你才会慢慢变强

FFmpeg学习（三）音频基础

一：音频入门

（一）声音三要素

1.音调（音频）

2.音量（振幅）

3.音色（谐波）

（二）模数转换

模拟信号和数字信号之间可以相互转换：

（三）音频原始数据

这么大的码流显然无法在我们的网络中传输！！！（不能带宽全给音视频传输吧），所以要进行音频数据压缩！！！

（四）音频帧大小的计算（采样率和时间间隔的区别）

采样率是指在1秒中的采样次数，而时间间隔是指每采取一帧音频数据所要时间间隔！！！

解析：#define MAX_AUDIO_FRAME_SIZE 192000

（五）PCM存储格式

Planner

Packed

（六）WAV header

WAV例子：

二：音频处理流程

（一）直播客户端的处理流程

（二）音频数据的流转（格式的转换）

三：音频采集

（一）各平台音频采集方式

1.Android端音频采集：https://blog.csdn.net/u010029439/article/details/85056767

（1）使用MediaRecorder进行音频采集。

（2）使用AudioRecord进行音频采集。

2.Ios端音频采集：https://blog.51cto.com/u_13505171/2057075

3.Windows音频采集：https://blog.csdn.net/machh/article/details/83546258

（二）FFMpeg采集音频方式（集成上面所有平台）

（1）通过命令方式（不同平台可能不同）：https://www.cnblogs.com/ssyfj/p/14576359.html

（2）通过API方式：如下（三）

（三）FFmpeg编程采集音频

1.打开输入设备

2.从音频设备中读取音频数据

包的大小同码率/8=字节数

3.录制成为音频文件

四：音频压缩

（一）音频有损压缩技术（消除冗余信息）

（二）音频无损压缩技术

（三）音频编码过程

（四）常见的音频编码器

其中最常见的是OPUS和AAC：延迟小，压缩率高

音频编码器性能质量对比：

音频编码码率对比：（结合上面性能图）

五：AAC编码

（一）AAC编码器介绍

AAC LC：码流越大（AAC LC，128k），存储信息量越大，音质越好，保真性高。码流越小，压缩比越高，去除的冗余信息多，会对重要的数据造成一定的损失。

AAC HE：按频谱分别保存;低频（基频）保存主要成分，高频（谐频）和音色有很大关系，将高频单独放大去保证音质。实现进一步压缩。

AAC HE V2：参数化，保存差异，进一步减少码流大小。

对于AAC格式：ADTS相对于ADIF而言，虽然每一帧前面都有header信息，但是却可以实现随时拖动播放，不必每次从头播放

补充：音频一帧数据计算---假设音频采样率 = 8000，采样通道 = 2，位深度 = 8，采样间隔 = 20ms

（二）ADTS格式

ADTS头，适用性广，更加适用于流的传输，尤其对于直播系统

每一帧的ADTS的头文件都包含了音频的采样率，声道，帧长度等信息，这样解码器才能解析读取。

1.adts_fixed_header();

2.adts_variable_header();

3.代码实现头部的添加：https://www.cnblogs.com/ssyfj/p/14579909.html

4.AAC首部分析：https://www.p23.nl/projects/aac-header/

5.命令行提取AAC文件

补充：通过profile参数，修改编码级别，2表示修改为AAC SSR级别

编程实现编码器：如七所示

六：音频重采样

（一）什么是音频重采样

1.为什么需要重采样？

2.如何知道是否需要进行重采样？

3.重采样的步骤

4.重采样相关API

（二）编程实现音频重采样

1.补充：

音频通道布局

FFMpeg笔记（三） 音频处理基本概念及音频重采样

2.代码实现

七：创建AAC编码器

见六：Audio:pcm_s16le,说明数据为原始pcm数据，没有进行编码处理！！！

（一）FFmpeg编码过程

1.创建并打开编码器

2.获取输入输出数据

一般来说AVPacket中存放的是编码后的数据，而AVFrame中存放的未编码的数据！！

FFMpeg笔记（三）音频处理基本概念及音频重采样