title

Spectrogram Transformers for Audio Classification

文章小结

流程:

对于每一秒的音频,生成时间(维度)方向 产生100 个序列。

  1. 网络的输入语谱图特征是\(Z∈R^{128×100T}\),其中t是输入音频的长度,单位为秒。

  2. 生成 time embeding :
    来生成时间维度的embedding , \(E_{t}∈R^{100T × 768}\) 和频率维度的embeddings \(E_{f}∈R^{128 × 768}\)
    方式是使用 我们使用时间维采样法和频率维采样法:
    100t 代表了 100t 个时间序列,Thus, we design time-dimension sampling method which generates embedding Et ∈ R100t×768 based on the vectors znt ∈ R1×128, n = 1...100t that match to sliding FFT windows at each timestamp n. While for the frequency-dimension sampling method, we produce the frequency-dimension embedding Ef ∈ R128×768 from zmf ∈ R100t×1, m = 1...128.

  3. 类似于VIT[20],我们在分类任务的embedding 中添加了一个可学习分类(CLS) token \(CLS∈r^{1×768}\)

  4. 增加 position embedding :
    由于transformer 不能获取序列信息,我们还在时间维度上增加了可学习位置的embeding \(E_{t}∈R^{(100T +1 ) × 768}\) ,或者在频率-维嵌入上增加了\(E_{f}∈R^{129 × 768}\)

  5. 最后,将序列\(E_{t}∈R^{(100T +1 ) × 768}\) ,或者\(E_{f}∈R^{129 × 768}\), 输入到transformer 块中进行分类。

abstract

音频分类是机器学习领域的一项重要任务,有着广泛的应用前景。在过去的十年中,基于深度学习的方法得到了广泛的应用,基于变压器的模型正在成为音频分类的新范例。在本文中,我们提出了频谱变换,这是一组基于变换的音频分类模型。基于音频谱图的基本语义,我们设计了两种机制,从语谱图中提取时间特征和频域特征,即时域采样和频域采样。然后,这些采样特征表示 通过以下组合模块,纯时间(TO)注意、时频(时间,频域)顺序(TFS)注意、时频并行(TFP)注意和双流时频(TSTF)注意的注意块结构的各种组合来增强,以提取声音记录特征以服务于分类任务。
**我们的实验表明,这些Transformer模型在没有预训练阶段的情况下,在ESC-50数据集上的性能优于现有的方法。此外,与其他主流方法相比,我们的方法也显示出了很高的效率。

1. introduction

声音是一个重要的能指,它蕴含着丰富的高层语义环境信息。因此,旨在识别各种声音模式的计算机音频分类已经发展了几十年[1]。它仍然是机器学习中最重要的任务之一,它是由广泛的真实世界应用驱动的,包括监视[2]、监视[3]、机器的智能故障诊断[4]以及用于自然保护区保护的动物检测[5]。

基于深度学习的模型是最常用的音频分类方法[6-9]。有许多研究使用CNN体系结构来调整音频表示的预训练模型,例如频谱图[10-12]和MFCC(MFCC)[13-15],以显著提高音频分类、标记和识别任务的性能[16,17]。最近,基于变压器的型号[9,18,19]不断涌现,以进一步提高性能。转换器模型支持对长特征依赖项进行建模,并支持并行处理。由于它们在自然语言处理任务上的成功,它们在我们的工作中具有对时间序列信号(即音频)建模的巨大潜力。

在本文中,为了进一步设计一个有效和高效的变压器网络体系结构,我们提出了一种语谱图transformer 模型,用于音频分类任务。具体地说,我们介绍了两种从音频频谱图中提取特征的采样方法,包括时间维采样和频率维采样。这些功能进一步用于四种不同的架构,即纯时间(TO)转换器、时频顺序(TFS)转换器、时频并行(TFP)转换器和双流时频(TSTF)转换器。我们测试了我们的模型,并将它们与在ESC-50数据集上的最新方法进行了比较,ESC-50数据集是用于音频分类任务的标准数据集。

本文的主要贡献可以概括如下:首先,当前transformer 网络基于VIT体系结构[20],该体系结构使用从频谱图中裁剪的斑块作为输入。我们是第一个研究不同采样和embedding 泛化方法的方法,因为从领域知识的角度来看,我们的特征划分更有意义。其次,我们的Transformer框架在处理ESC-50数据集时,**在没有预训练的情况下,在准确率上比最先进的方法“AST”[9]提高了11.89%。第三,我们的体系结构在模型效率方面获得了很大的优势。

第二部分介绍了音频分类任务的相关工作。第三节描述了我们新颖的谱图转换器架构。

第四节介绍了我们的实验结果,并与其他方法进行了比较。第五部分得出结论,并对下一步工作进行了展望。

2. related work

时频表示是用于音频处理的最常见的中级特征。大多数研究在分析之前将原始音频信号投影到时频空间[21-23]。在这些特征中,谱图[10]和美尔倒谱系数(MFCC)特征[13]最具代表性,因为2D形式允许从最近的DNN方法探索时间和频率维度之间的相互作用。

基于CNN的方法主要用于分析这十年的音频信号。许多音频分类模型都在时频上部署了标准的图像分类模型,例如,先启、ResNet和VGG[6,17]特征。为了进一步提高性能,设计了几种新的体系结构来增强音频特征的提取和建模。AclNet[24]提出了一种VGG架构,大大减少了内存,以在准确性和复杂性之间取得平衡。SeCoST[25]为其分类引入了音频片段级别预测。而ERANNS[26]提出了用于音频模式识别的高效残差音频神经网络。

最近,人们引入了注意机制和转换模型来改进具有全局上下文特征感知的音频分类。注意力增强卷积神经网络[7]被提出通过探索不同频段之间的关系来增强音频特征。而[27]讨论了利用能量随时间变化的时间注意力来改善表征。在音频分类任务中,与基于CNN的方法相比,由于输入序列的长度不影响多头注意或变换器块中的参数数目,因此使用变换的方法的优点之一是支持输入长度的变化。当改变输入音频的长度时,基于变换的方法仍然能够及时地捕捉到有用的全局上下文信息。AST[9]是第一个用于音频分类的变换模型,它采用图像分类网络VIT[20]的体系结构,并自适应来自VIT的预训练权重。PASST[19]是主流方法中的另一种方法,它显著降低了音频域的训练变压器的计算和存储复杂性。

与tranformer 模型相比,本文模型的显著优点是:(I)我们提出了一种新的采样策略来提取音频频谱图中的注意力;(Ii)我们设计了时间多头自我注意模块和频率多头自我注意模块,以进一步研究将这两种注意结合在一起以获得更好性能的有效架构。

3. spectrogram transformers

在这一节中,我们将详细介绍我们提出的谱图转换器。我们首先给出了整个系统的流水线,然后介绍了两种采样机制来提取用于我们的注意块的特征。然后,介绍了变压器体系结构的四种变体及其设计逻辑。

3.1 Spectrogram Transformer Framework

我们系统的处理流水线如图1所示。

当音频波形段被输入到系统中时,它们被转换为频谱图图像。与一维信号的原始音频波形相比,该转换可以通过探索时间和频率特征之间的相互作用来潜在地提高DNN的性能。在我们的工作中,我们在我们的系统中产生了128维的对数-梅尔滤波器组能量特征。(128 是纵轴频率方向上)

具体地说,来自音频波形的目标采样率是每秒16,000。我们使用400作为快速傅里叶变换(FFT)窗口的长度,并使用160作为采样的步长。

对于每隔一秒的音频,生成时间(维度)方向上 产生100 个序列。我们的网络的输入特征是\(Z∈R^{128×100T}\),其中t是输入音频的长度,单位为秒。

**随后,我们使用时间维采样法和频率维采样法(将在下一节详细介绍)
来生成时间维度的embedding , \(E_{t}∈R^{100T × 768}\)
频率维度的embeddings \(E_{f}∈R^{128 × 768}\)

类似于VIT[20],我们在分类任务的嵌入中添加了一个可学习分类(CLS) token \(CLS∈r^{1×768}\)。由于transformer 不能获取序列信息,我们还在时间维度上增加了可学习位置的embeding \(E_{t}∈R^{(100T +1 ) × 768}\) ,或者在频率-维嵌入上增加了\(E_{f}∈R^{129 × 768}\)

最后,将序列\(E_{t}∈R^{(100T +1 ) × 768}\) ,或者\(E_{f}∈R^{129 × 768}\), 输入到transformer 块中进行分类。

3.2 Time-dimension sampling and frequency-dimension sampling

如图2所示,我们提出了两种从变压器模型的频谱图中同时获得时间和频率特征的采样方法,即时间维采样和频率维采样。与处理具有两个空间维度的正常2D图像不同,频谱图显示了时间和频率维度,我们认为将它们分开采样是更有意义的方式,以探索变压器模型中的上下文关注。

**因此,我们设计了一种时间维采样方法,该方法基于列向量\(z^n_{t} ∈r^{1×128}\) , 其中n=1...100t 用来匹配FFT 窗口的滑动时间长度,来生成时间embed的\(E_{t}∈R^{100T × 768}\)

**而对于频率维采样方法,我们从ZMFFFT R100t×1,m=1...128产生频率维的嵌入EF∈R128×768。

3.3 Transformer 架构

在我们的系统中,我们研究了一套结合使用时间和频率注意来提高系统性能的方法。如图3所示,我们设计了四种基于转换器的音频分类体系结构。我们首先从最简单的模型--时态纯(TO)转换器出发,它使用了时态多头自我注意。

然后,我们在TO模型中依次和并行地增加了一个频率多头自我注意,分别称为时频顺序(TFS)和时频并行(TFP)。最后,我们得到了双流时频(TSTF)转换器,它在将注意力送入MLP分类头之前融合了这些注意力。我们在每个变压器编码器中使用了12个头自关注模块,并堆叠了六层变压器块。

**模型1:纯时间(TO)转换器:

由于音频是时间序列数据,特征的顺序信息是极其重要的。因此,我们设计了音频频谱图的“纯时间的” transformer ,以捕捉时间空间上特征之间的关注度。简单地说,我们的“ 时间”transformer 在时间维度上实现了原始的多头自我关注[28]。

**模型2:时频序列(TFS) transformer :

受Wu等人[7]的启发,频段的关注也有助于提高分类精度。
在该体系结构中,我们探索使用频率注意和时间注意来进一步增强时间特征。为了使注意力通信的频率特征多样化.我们在transformer模块中提出了频率多头自关注,通过线性投影层将原有的频率特征从128D扩展到768D。

**由于时间特征比频率特征更可靠,因此在该架构中,我们先使用了时间多头自我注意模块,然后再频率多头自我注意模块。

**模型3:时间-频率并行(TFP)转换器:

我们做了另一个设计来探索同时使用时间注意和频率注意来增强时间维度的embedding 效应。在该体系结构中,我们使用时间多头自我注意和频率多头自我注意并行, 通过残差结构连接,如图所示。

**Model4:双流时频(TSTF)转换器:

第四种模型架构是双流结构。TSTF transformer与以前的TFP变压器和TFS变压器有两个不同之处:

(I)在通过MLP 将时间和频率信息进行整合之前,我们设计了两个单独的管道,通过注意力来增强时间嵌入和频率嵌入;

(Ii)与融合每个transformer块中的时间信息和频率信息的TFS和TFP相比, 双流 Transformer 将它们两个信息的融合 在最后一步中执行。

4. emprical evaluation

4.1 实验设置

数据集

数据集我们在音频分类数据集ESC-50[29]上评估了我们提出的模型的性能。ESC-50数据集是一个单标签数据集,由2000个环境音频记录组成。ESC50数据集中的每个音频记录都有5秒长。有50个语义类别,大致分为5大类,包括动物声、自然声和水声、人、非言语声、室内/家声和外部/城市声。

数据集是一个平衡的数据集,每个类有40个示例。我们使用5倍交叉验证的实验,其中折叠预先安排在数据集中[29]。

训练过程

在训练变压器模型之前,从音频记录中提取频谱特征。

对于每5秒的音频,我们使用第III-A节中描述的设置来提取128维的对数-梅尔滤波器组能量特征Z∈R128×500。

我们使用specAugment[30]进行数据论证。SpecAugment的想法是使用随机长度的掩码来过滤掉频道和时间窗口块。频率掩码的最大长度为24,而频率掩码的最大长度为96。基于掩蔽谱特征的两个线性嵌入层可以计算出时间维嵌入Et∈R500×768和频率维嵌入EF∈R128×768。最后,我们将嵌入式EPT∈R501×768和EPF∈R129×768输入到不同的模型体系结构中。

**值得注意的是,大多数基于变压器的音频分类方法严重依赖于在ImageNet上的预训练,例如AST[9]和PASST[19]。

基于变压器的方法显示了巨大的未提供ImageNet预培训时的差距。在实验中,我们重点研究了在没有预训练模型的情况下,变压器模型的性能。因此,我们所有的模型和比较都是使用随机初始权重从头开始训练的,而不需要任何预训练。

在我们的实验中,我们使用批次大小28和SGD优化器(动量0.9和权重衰减1e-4)和交叉熵损失来训练我们的模型。我们的模型被训练了50个周期,初始学习速率为1e-2,在第30个周期后衰减到1e-3。

我们选择ESC-50排行榜方法的冠军AST[9]进行比较。使用的训练代码来自他们的GitHub资源库,没有任何更改,只是稍微减小了批处理大小以适应我们的GPU。

4.2 对比当前其他方法

在ESC-50数据集上与KNN、支持向量机、卷积自动编码器和AST等最新方法进行了比较。表I显示了基准模型和我们的基准模型在Top-1精度方面的结果。我们的所有模型在ESC-50数据集上的表现都好于这些模型。具体地说,我们的TSTF转换器在TOP-1上的准确率达到了57.24%,比最新的AST[9]方法提高了11.8%

4.3 ablation studies

我们进行了一项实证研究,以了解我们提出的谱图转换器架构与最先进的基于转换器的方法AST[9]相比的性能。研究结果摘要如下:

我们首先对表2所示的模型精度进行了实验评估。仅时间(TO)变压器达到了57.17%的TOP-1精度在未经预训练的ESC-50上,其性能比最先进的方法AST高11.82%。时频顺序(TFS)转换器的准确率略高于AST(48.09%),而另一种时频模型时频并行(TFP)转换器的准确率较高,为52.88%。第四种架构的双流时频(TSTF)转换器是最好的VARIANT达到了57.24%的TOP-1准确率,比最先进的方法AST高出11.89%

**此处,给出时域embeding 信息的重要性 高于频域的编码信息的原因是,对于频率信息,没有给出位置编码;

从表II中我们发现,研究变压器块中的频率信息而不是单个流中的频率信息的时频串联(TFS)转换器和时频并行(TFP)转换器的性能不如两流时频(TSTF)转换器。这可能是由于频率位置信息的丢失造成的。在TFS和TFP变换中,与时间维不同,频率维不存在位置嵌入。该模型难以捕捉到频率维上的时序信息。

4.4 模型效率

我们观察到,我们的模型具有较低的推理成本以及较少的参数。表三给出了AST模型和我们的模型的模型容量比较。

**我们的时态(TO)转换器具有与AST模型最相似的架构。我们使用6层架构来实现仅限时间(TO)的Transformer。结果表明,TO变压器的参数个数约为AST模型的50%。我们还得益于时间维抽样方法,使得嵌入次数更少,TO Transformer的FLOPS仅为AST模型的43.8%左右。

与TO变压器相比,TFS变压器和TFP变压器在变压器块上都有两个多头自关注,而不是一个。这些变形金刚的翻转次数略有增加,而参数数量几乎翻了一番。

对于双流时频(TSTF)转换器,我们也采用了6层架构。由于频率流129的序列长度明显低于时间流501的序列长度,并且多头自关注算法的复杂度为O(n2d+nd2),因此频率流的计算代价远低于时间流,而6层TSTF转换器(总共12个多头自关注)的计算代价远低于12层时间仅关注(TO)转换器。

5. 结论与未来工作

在这项工作中,我们提出了频谱图变换来提高音频分类的性能。具体地说,我们设计了两种采样机制,包括时间维度采样和频率维采样,以及用于音频分类任务的四个变压器架构。这些体系结构在ESC50数据集上使用基于变换的方法都取得了最先进的结果,无论是在准确率还是效率上都有各自独特的优势。主要的局限性是,与预先训练模型的变压器相比,仍有很大的性能差距。在今后的工作中,我们将研究将预先训练好的模型集成到我们的变压器体系结构中,以提高精度

posted on 2023-02-14 16:22  Hello_zhengXinTang  阅读(367)  评论(0)    收藏  举报