英国华威 大学 2022. phd 学位论文;

ch3: 将音频转换为图;

  1. 使用cycle 循环填充的 padding 的方式, 将所有的音频的长度 统一到统一长度;

使用 OpenSMILE 提取特征,

要应用于语音识别、情感计算、音乐信息获取。;

https://tobefans.github.io/2020/05/02/opensmile/;

https://hellolzc.github.io/2020/04/speech-emotion-feature-set/;

OpenSMILE工具包[181]从原始语音话语中提取一组LLDs,作为Inter-
speech2009情感挑战[163]的建议。该特征集包括mfcc、过零率、语音概率、基
频(F0)和帧能量。对于每个样本,我们使用一个长度为25ms,步长为10ms的滑
动窗口来局部提取LLDs。然后使用移动平均滤波器对每个特征进行平滑处理,
并使用平滑后的版本来计算它们各自的一阶delta系数。此外,受最近一项关于
语音情感识别的研究[182]的启发,我们还将自发性作为二值特征添加进来。自
发性信息随数据库而来。总的来说,这产生了维度P = 35的节点特征向量。

每个音频样本产生一个M = 120个节点的图,其中每个节点对应一个长度为
25ms的(重叠的)语音段。使用循环填充使样本与之前一样长度相等。我们执行
5倍交叉验证,并在表4.1中报告平均未加权精度。未加权精度是IEMOCAP的
标准评估策略,它没有考虑到类的不平衡。

ch4: 图结构学习 audio graph learning;

-动态图结构学习。由于图结构不是自然定义的,我们建议学习一
个(次)最优结构。图结构学习是与分类损失联合训练的。

对邻接矩阵,使用可学习的方式;p60

•可学习邻接(A)。回想一下,在我们的任务中,图的结构是未知的。
虽然我们可以手动定义这样的结构,但结果是次优的。一种有效的方
法是通过对分类损失和图学习损失进行联合优化来学习图结构(邻接
矩阵)本身。我们假设所有视频具有相同的底层图结构,包含相同数
量的节点和边。这在很大程度上简化了我们的图结构学习任务。联合
图学习和分类的总损失L由两个部分组成:(i) LGC:图分类损失;(ii) LGL:
图学习损失。分类损失LGC定义为交叉熵损失:

image-20240627211207124

ch5. (音频) 图 的自监督表示学习

图5.3(a)显示了分类性能随图大小(节点数)的变化情况。我们观察
到,最初,识别精度随着图大小的增加而提高(直到50个节点),但随后
开始下降。总的来说,我们的观察是,在我们有有限的标记和大量未
标记的训练数据的情况下,子图比使用更大的图更有效

。图5.3(b)显示了被屏蔽节点的比例如何影响分类性能。我
们观察到,一般情况下,当被屏蔽节点增加到10%以上时,识别准确率
会下降。在

ch6: 图的多模态学习;

posted on 2024-07-10 11:03  Hello_zhengXinTang  阅读(24)  评论(0)    收藏  举报