Graph Neural Network for Audio Representation Learning - Hello_zhengXinTang

公告

Graph Neural Network for Audio Representation Learning

英国华威大学 2022. phd 学位论文；

ch3: 将音频转换为图；

使用cycle 循环填充的 padding 的方式，将所有的音频的长度统一到统一长度；

使用 OpenSMILE 提取特征，

要应用于语音识别、情感计算、音乐信息获取。；

https://tobefans.github.io/2020/05/02/opensmile/；

https://hellolzc.github.io/2020/04/speech-emotion-feature-set/；

OpenSMILE工具包[181]从原始语音话语中提取一组LLDs，作为Inter-
speech2009情感挑战[163]的建议。该特征集包括mfcc、过零率、语音概率、基
频(F0)和帧能量。对于每个样本，我们使用一个长度为25ms，步长为10ms的滑
动窗口来局部提取LLDs。然后使用移动平均滤波器对每个特征进行平滑处理，
并使用平滑后的版本来计算它们各自的一阶delta系数。此外，受最近一项关于
语音情感识别的研究[182]的启发，我们还将自发性作为二值特征添加进来。自
发性信息随数据库而来。总的来说，这产生了维度P = 35的节点特征向量。

每个音频样本产生一个M = 120个节点的图，其中每个节点对应一个长度为
25ms的(重叠的)语音段。使用循环填充使样本与之前一样长度相等。我们执行
5倍交叉验证，并在表4.1中报告平均未加权精度。未加权精度是IEMOCAP的
标准评估策略，它没有考虑到类的不平衡。

ch4: 图结构学习 audio graph learning;

-动态图结构学习。由于图结构不是自然定义的，我们建议学习一
个(次)最优结构。图结构学习是与分类损失联合训练的。

对邻接矩阵，使用可学习的方式；p60

•可学习邻接(A)。回想一下，在我们的任务中，图的结构是未知的。
虽然我们可以手动定义这样的结构，但结果是次优的。一种有效的方
法是通过对分类损失和图学习损失进行联合优化来学习图结构(邻接
矩阵)本身。我们假设所有视频具有相同的底层图结构，包含相同数
量的节点和边。这在很大程度上简化了我们的图结构学习任务。联合
图学习和分类的总损失L由两个部分组成:(i) LGC:图分类损失;(ii) LGL:
图学习损失。分类损失LGC定义为交叉熵损失:

ch5. （音频）图的自监督表示学习

图5.3(a)显示了分类性能随图大小(节点数)的变化情况。我们观察
到，最初，识别精度随着图大小的增加而提高(直到50个节点)，但随后
开始下降。总的来说，我们的观察是，在我们有有限的标记和大量未
标记的训练数据的情况下，子图比使用更大的图更有效

。图5.3(b)显示了被屏蔽节点的比例如何影响分类性能。我
们观察到，一般情况下，当被屏蔽节点增加到10%以上时，识别准确率
会下降。在

ch6: 图的多模态学习；

posted on 2024-07-10 11:03 Hello_zhengXinTang 阅读(24) 评论(0) 收藏举报

刷新页面返回顶部

ch3: 将音频转换为图；

ch4: 图结构学习 audio graph learning;

ch5. （音频） 图 的自监督表示学习

ch6: 图的多模态学习；

ch5. （音频）图的自监督表示学习