英国华威 大学 2022. phd 学位论文;
ch3: 将音频转换为图;
- 使用cycle 循环填充的 padding 的方式, 将所有的音频的长度 统一到统一长度;
使用 OpenSMILE 提取特征,
要应用于语音识别、情感计算、音乐信息获取。;
https://tobefans.github.io/2020/05/02/opensmile/;
https://hellolzc.github.io/2020/04/speech-emotion-feature-set/;
OpenSMILE工具包[181]从原始语音话语中提取一组LLDs,作为Inter-
speech2009情感挑战[163]的建议。该特征集包括mfcc、过零率、语音概率、基
频(F0)和帧能量。对于每个样本,我们使用一个长度为25ms,步长为10ms的滑
动窗口来局部提取LLDs。然后使用移动平均滤波器对每个特征进行平滑处理,
并使用平滑后的版本来计算它们各自的一阶delta系数。此外,受最近一项关于
语音情感识别的研究[182]的启发,我们还将自发性作为二值特征添加进来。自
发性信息随数据库而来。总的来说,这产生了维度P = 35的节点特征向量。
每个音频样本产生一个M = 120个节点的图,其中每个节点对应一个长度为
25ms的(重叠的)语音段。使用循环填充使样本与之前一样长度相等。我们执行
5倍交叉验证,并在表4.1中报告平均未加权精度。未加权精度是IEMOCAP的
标准评估策略,它没有考虑到类的不平衡。
ch4: 图结构学习 audio graph learning;
-动态图结构学习。由于图结构不是自然定义的,我们建议学习一
个(次)最优结构。图结构学习是与分类损失联合训练的。
对邻接矩阵,使用可学习的方式;p60
•可学习邻接(A)。回想一下,在我们的任务中,图的结构是未知的。
虽然我们可以手动定义这样的结构,但结果是次优的。一种有效的方
法是通过对分类损失和图学习损失进行联合优化来学习图结构(邻接
矩阵)本身。我们假设所有视频具有相同的底层图结构,包含相同数
量的节点和边。这在很大程度上简化了我们的图结构学习任务。联合
图学习和分类的总损失L由两个部分组成:(i) LGC:图分类损失;(ii) LGL:
图学习损失。分类损失LGC定义为交叉熵损失:

ch5. (音频) 图 的自监督表示学习
图5.3(a)显示了分类性能随图大小(节点数)的变化情况。我们观察
到,最初,识别精度随着图大小的增加而提高(直到50个节点),但随后
开始下降。总的来说,我们的观察是,在我们有有限的标记和大量未
标记的训练数据的情况下,子图比使用更大的图更有效
。图5.3(b)显示了被屏蔽节点的比例如何影响分类性能。我
们观察到,一般情况下,当被屏蔽节点增加到10%以上时,识别准确率
会下降。在
浙公网安备 33010602011771号