ARSC-Net: Adventitious Respiratory Sound
Classification Network Using Parallel Paths with
Channel-Spatial Attention

pass1

1.1 标题

“ 基于通道空间注意力的并行路径的 分类网络, 用于呼吸音的分类”;
中南大学 2021 发表于会议BIBM;

2021 IEEE International Conference on Bioinformatics and Biomedicine (BIBM);

1.2 摘要

近年来,不定呼吸音的自动识别仍然是一个具有挑战性的问题。为了应对这一挑战,我们提出了一种外来呼吸音分类网络(ARSC-Net),该网络将残差块和通道空间注意力相结合来进行准确的分类。
具体地说,我们从呼吸音中提取了两类特征,包括Mel频率倒谱系数(MFCC)和Mel谱图。
将这两类特征输入到并行编码器中, 通过残差注意力来提取特征表示,
然后将提取的特征融合到通道空间注意力模块中,在该注意力模块中,自适应地聚焦于通道和空间部分之间的重要特征,以用于分类任务。

此外,通道-空间注意可以增强特征表征,
其中通道注意负责探索频谱中通道之间关系,
空间注意力 负责 生成空间的相关性映射;

我们在ICBHI 2017数据库上对我们提出的方法进行了评估。
实验结果表明,该方法对异常声音和正常声音的识别准确率为80.0%,
对爆裂音和喘鸣音的识别准确率为92.4%,具有良好的预测性能。
此外,我们的方法对不定音的四类声音分类也达到了56.76%的分数,并且优于几种最先进的方法。

1.3 结论

在这项研究中,我们提出了一种基于两种音频特征, 且具有注意机制的神经网络ARSC-Net,用于肺呼吸音的分类。

我们在ICBHI 2017数据库上对我们的方法进行了评估。
我们提出的并行路径可以有效地融合两种类型的音频谱特征,
增强呼吸信号的表示能力。

此外,实验结果表明,通过注意力模块可以进一步提高模型的性能。

小结: 第一篇读下来, 就是说, 这篇文章的创新点主要体现在网络模型的结构上:

  1. 提出 一种 两路并行的 方式, 使得网络的输入是两种特征;
  2. 提出一种 通道 - 空间注意力的模块, 对特征进行了融合, 从而提高特征的表达能力;

pass2

2.1 介绍 introduction

预防、早期诊断和治疗被认为是限制呼吸道疾病负面影响的关键因素[1]-[4]。大多数与呼吸阻塞或限制相关的疾病都可以通过呼吸过程中产生的声音来表征,因为呼吸道异常会导致呼吸声音中额外的异常声音[5]、[6],这可以作为患者临床诊断的有价值的信息。喘息声和爆裂声是两种常见的不确定呼吸音,它们是最具临床价值的不确定呼吸音[7]、[8]。这些异常可以根据频率、音调、能量、强度和音色与正常呼吸音区分[7]、[9]。因此,呼吸音在识别特定的呼吸系统疾病和评估其慢性和非慢性特征方面起着重要作用。

然而,即使对于专家来说,识别某些类型的不确定肺音之间的细微差异也是一项困难的任务,这可能导致在诊断和解释中引入主观性[10]、[11]。在这种情况下,机器学习和深度学习算法可以在根据肺音自动解释呼吸系统疾病方面发挥巨大作用,特别是在世界上缺乏熟练医生的欠发达地区。

用于呼吸音分析的深度学习技术主要基于卷积神经网络(CNN)[12]、[13]、递归神经网络(RNN)[14]、[15]或混合结构[10]。Jakovljevi‘c等人。[16]利用隐马尔可夫混合高斯模型对基于MFCC的呼吸周期进行分类。提出了一种深度CNN,基于MFCC将呼吸周期分为健康和不健康两类[12]。他们还将记录分为健康、慢性病和非慢性病三类,准确率为82%。Acharya等人。[10]设计了卷积和递归神经网络的混合模型对异常呼吸音进行分类,并提出了一种筛选和模型调整策略来从有限的患者数据中建立患者特有的诊断模型。此外,Ma等人也提出了自己的观点。[17]引入非局部注意机制进行分类,并通过混合技术对训练样本进行人工扩充。该网络获得了官方定义的52.26%的官方数据拆分和64.21%的5次交叉验证的评价分数。在这些研究中,语谱图[18]、MFCC[19]、小波系数[20]等是常用的特征提取技术,特别是MFCC和Mel-语谱图[21]是常用的外来呼吸音分类方法。然而,现有的研究工作并不能很好地检测不定呼吸音,仍需进一步提高检测性能。

为了解决上述问题,我们提出了一种外来呼吸音分类神经网络ARSC-Net,它使用了通道-空间注意力的方式, 并且输入两种音频特征(MFCC和Mel谱)。空间模块被引入来强调沿通道和空间轴的有意义的特征,并顺序地应用通道和空间注意模块来通过学习强调或抑制哪些信息来帮助信息在网络中流动。为了验证我们所提出的方法的有效性,我们使用了国际生物医学和卫生信息学会议(ICBHI 2017)的科学挑战呼吸声音数据库[22]。在这项研究中,我们执行三项任务:
1)识别异常声音和正常声音;
2)区分爆裂声和喘息声;
3)将正常、爆裂声、喘息声和两者(包括爆裂声和喘息)进行分类。

其中:个人关注的参考文献有
[10] 提出一种 筛选和 模型调整策略 用于解决,病人专有模型, 数据有限问题;
[17] 该文章,分析较多, 需要阅读;使用 mix up 数据增强技术 扩展训练集, 引入非局部注意力机制;

2.2 实验

在这项研究中,我们使用开源机器学习框架Pytorch来构建和训练我们提出的ARSC-Net,在Interr Xeonr Gold 6230 CPU@2.10 GHz和特斯拉V100 PCIe 32 GB上。此外,我们使用初始学习率为0.001的ADAM优化器。为了避免过度匹配、过早停止训练策略,如果验证损失没有在30个历元内减少,则将终止训练.

本研究对不定呼吸音进行了三种分类任务,包括1)正常/异常分类;2)爆鸣/喘鸣分类;3)四类呼吸音分类,并报告了每个任务的三个实验的平均结果。对于二分类任务,数据相对均衡,其中每个班级80%用于训练,10%用于验证,其余10%用于测试。对于四类呼吸音的分类,我们还分别采用了官方数据分割和5次交叉验证。我们采用敏感度(SEN)、特异度(SPE)、准确度(ACC)和曲线下面积(AUC)来评价其表现。此外,对于四级呼吸音分类,使用敏感度和特异度的平均值-官方得分作为评价指标.

其中TP、T-N、F-P和F-N分别为真阳性、真阴性、假阳性和假阴性。

基于基准CNN的方法已经被证明在图像分类中非常有效,例如ResNet18[25]和GoogLeNet[26],在音频分类方面显示出很好的前景[28]。对于不定呼吸音的二值分类,我们选择Resnet18和GoogLeNet作为基准,分别用两种单一特征(MFCCs和MelSpec)对它们进行训练。在本研究中,我们做了两种训练方法来训练基准模型:1)从头开始训练;2)在ImageNet[29]上进行预训练,然后转移到呼吸音数据集进行微调。此外,对于四类呼吸音分类,还采用了最新的基准方法[10]、[16]、[17]、[30]-[33]进行比较。

2.3 实验结果

2.3.1 正常/异常分类的性能:

首先,我们评估了该模型在二分类问题上的性能,以探索正常和异常呼吸音之间的外部差异。表I显示了我们的模型与基准模型ResNet18[25]和GoogLeNet[26]在正常/异常情况下的比较分类。结果证实了我们提出的模型优于基准模型(AUC:86.9%比85.6%,ACC:80.0%比77.0%)。

2.3.2 爆裂/喘鸣分类的性能:

为了进一步分析爆裂和喘鸣这两种异常声音之间的差异,表II给出了额外的实验。虽然我们的方法始终获得了最好的性能(96.9%的AUC和92.4%的ACC),但基准模型和我们提出的网络都可以达到很好的性能。这一现象表明,这两种异常音之间存在着很大的差异,量词可以很好地区分这两种异常音。最后,我们发现我们的方法对这两类不确定音的分类性能明显好于正常/异常声音.

2.3.3 四分类的性能:

为了更好地与其他研究工作进行比较,进一步分析各种不确定呼吸音的内在联系和区别,我们还对肺不确定呼吸音的四种声音分类(正常、咯吱声、喘息声和两者)进行了额外的比较。表三显示了我们的方法和其他研究在官方数据划分和5次交叉验证方面的表现。与目前最先进的方法[16]、[17]、[30]-[32]相比,我们提出的方法的灵敏度、特异度和得分分别为46.38%、67.13%和56.76%,优于其他方法。在5倍交叉验证中,我们的方法与最先进的模型[10]、[17]、[33]相比,分数也提高了约0.5%。

2.3.4 消融实验:

表四显示了我们进一步的分析实验, 实验了 两种特征融合 和注意力模块对模型性能的影响。
首先,我们单独使用两个单视图特征(MFCC或MelSpec)与基于ARSC-Net的使用两种类型特征的单视图特征进行比较,其并行路径减少为一个分支。例如,对于正常和异常声音的分类,我们的两种特征的模型达到了80.0%的准确率和86.9%的AUC,而使用单视图特征的最好结果是78.9%的准确率和86.7%的ab AUC。结果表明,融合后的特征可以提高呼吸音分类的性能。其次,对有无通道空间注意的模型进行了评价。例如,对于从喘息中识别爆裂声,我们的注意力模型已经达到了92.4%的准确率和96.9%的AUC。此外,我们还对四类声音分类进行了消融实验,也得到了类似的结果,即融合了特征和通道-空间注意可以提高网络的性能。

从表格中 发现:
对于 MFCC 特征,使用注意力,降低sen性能, 提高 spe 性能;
对于 MEL spectro 特征, 使用注意力, sen, spe 则基本都会提高;

pass3

3.1 数据集

在本研究中,所提出的方法使用了ICBHI 2017数据库。该数据库由葡萄牙和希腊医院的不同设备在胸部的不同位置收集[22]。该数据库包含从126名患者收集的920条音频记录。呼吸专家将每个音频记录中的每个呼吸周期标记为正常、咯吱声、喘息声和两者兼而有之(喘息和咯吱声)。

图2显示了带注释的四种呼吸音的呼吸周期的示例。其中,喘息是一种持续的异常呼吸声,主要在呼吸过程中产生。爆裂声是呼吸周期的吸气和呼气阶段的爆炸性和不连续的声音,持续时间明显少于整个呼吸周期[7]、[8]。值得一提的是,它是目前可获得的最大数据集,有6898个呼吸周期,其中包括1864声爆裂异常声,886声喘息异常声,506声爆裂喘息异常声,3642个正常呼吸周期。

3.2 预处理和特征提取

预处理
原始音频样本具有不同的采样率和不同的声道数。同时,肺外音信号的典型频率范围为0v 2 kHz[8]、[10]、[17]、[23],采样率决定了可再现的最大音频频率。理论上,可以表示的最大频率是采样率的一半(称为奈奎斯特频率[24])。因此,我们首先将所有录音重采样到22050赫兹的单声道,这是为了方便后续处理,避免相关信息的丢失。基于呼吸周期时长的直方图分布分析,呼吸周期在0.2s~16.16s之间,96.61%的呼吸周期样本小于5s,这给基于呼吸周期的不确定声分类带来了很大的挑战。因此,基于这样的事实: 周期样本填充之后, 有用信息不会丢失 或者其他无关信息也不会被引入。

特征提取
对于外来呼吸音的分类,我们观察到单一类型的音频频谱特征是不够的,因此引入了MFCCS和Mel谱图。MFCCs可以量化频谱的大体形状,这对于识别不定呼吸音是很重要的,而MEL谱图也有助于识别不定呼吸音的低频部分与MFCCs的互补。在这项研究中,我们提取了128维的MFCC和MEL谱图(MelSpec),窗口长度为2048,跳长为512。

3.3 网络结构

图1(A)说明了肺不定呼吸音的拟议框架。经过音频预处理后,并行路径提取两个频谱特征,通过通道级联得到特征。然后,下行神经网络进一步提取呼吸音信号的特征表示,并预测每一类的概率。

下面将详细介绍ARSC-Net的主要模块:
1)并行路径;
2)带注意的剩余块;
3)通道-空间注意模块。

1)并行路径:考虑到SingleView特征对呼吸音的局限性,我们精心设计了一种融合不同特征的并行路径,以解决外来呼吸音检测的困难。如图1所示,并行路径由两个SingleView编码器网络组成,用于提取两种类型的音频信号,并计算用于分类的特征映射。

具体地,并行路径模块将两个特征视图\(X_{mfccs}\in R^{1×H×W}\)\(X{MelSpec}∈R^{1×H×W}\) 作为音频信号的输入,这两个视图分别由并行路径模块的两个编码器网络模块处理。编码网络进一步提取信号的频谱特征,产生\(x1,x2∈R^{C×H×W}\)后, 特征通过拼接操作进行融合,融合后的特征可以表示为\(x∈R^{2C×H×W}\)

2)残差注意模块:具有通道-空间注意的残留区块(残留注意)的细节如图1(B)所示。
它的残差结构进一步抽象了语义信息,整合了低层输入信息,提高了音频信号上下文长相关性的表示能力。
此外,通道-空间注意模块用于计算音频信号的通道和空间相关性,以加强SingleView特征提取后的重要信息,削弱无关信息。在并行路径的编码网络中,这有助于提高单视图特征的表示能力。融合信号特征生成后,用于下游模块。

3)通道-空间注意:为了计算单视图信号特征的内部相关性和两类信号特征的外部关系,如图1(C)所示,我们在模型中引入了通道-空间注意模块、卷积块注意模块(CBAM)[27],以增强对音频信号中重要信息的特征表示。为了实现这一点,我们轮流使用了通道和空间注意模块。

通道注意模块:利用通道特征之间的关系生成通道注意映射。该模块对输入特征映射的空间维度进行压缩,同时进行平均池化层和最大池化层。然后使用共享的MLP层来计算输出并将其相加,得到最终的信道映射。 简单说明, 通道注意力通过以下公式实现:

\[M_C(F)=σ( MLP(AvgPool(F))+ MLP(MaxPool(F) ) \]

\[=σ( W_1(W_0(F^c_{avg}))+ W_1(W_0(F^c_{max} ) ),(1) \]

其中\(\sigma\) 表示 \(sigmod\) 函数,而F 是输入特征地图。\(F_{}\)\(F_{max}\)分别通过平均池化和最大池化操作生成。\(W_0\)\(W_1\)是参数权重;

空间注意模块:利用特征内部空间的相互关系生成空间注意映射。为了计算空间注意力,模块首先沿通道轴应用平均池化和最大池化操作。然后将它们结合起来,得到一个有效的特征表示。简而言之,空间注意力[27]使用以下公式:

\[M_s(F) = σ(f^{7×7}([AvgPool(F); MaxPool(F)])) \]

\[= σ(f^{7×7}([F^s_{avg}; F^s{max}])), \]

其中σ表示Sigmoid函数,\(f^{7×7}\)表示卷积运算的滤波器大小为7×7。

2D特征映射\(F^s_{avg}\)\(F^s_{max}\)分别由两个池化操作生成。和[·]表示通道拼接操作;

posted on 2022-04-07 21:43  Hello_zhengXinTang  阅读(355)  评论(0)    收藏  举报