【阅读笔记】基于语音深度伪造任务检测的一周论文总结
2.26--基于单声道到双声道转换的音频深度伪造检测的多空间通道表征学习
本文的出发点在于双声道音频信号能为语音感知提供一个更全面的视角,基于此提出MSCR-ADD框架,其技术路线大致为:
-
语音信息单声道转换为双声道
-
提取频谱特征
-
为了得到双声道信号的全面帧级特征表示,定义了三个特征空间(通道特定、差分和不变空间)
-
同时编码器层数的设置对实验结果有影响 ,当层数为3时模型表现最佳
-
三个特征空间分别代表三类特征向量
-
通道特定向量:对语音信号左右声道的信息,单独提取出高级声学特征
-
通道差分向量:捕捉左右声道之间的声学差异
-
通道不变向量:过滤左右声道共享信息并融合为不变特征
-
-
-
使用多空间特征聚合器融合特征
-
ADD分类器做出决策
实验装置
基线:(p12)
对于语料级add--9
-
resnet:仿效文献,采用8个残差块组成的resnet18模型。平均池化和三个全连接层结合起来作为分类器
-
LCNN(light cnn):2017赛季的MVP。29层LCNN结构,每次卷积后使用最大特征图激活特征。
-
Siamese连体CNN:两个相同的一维CNN。两个分支同时接受训练,输出两个维度相同的嵌入向量。然后连接,输入全连接层。
-
se-res2net50:resnet的变体。通过增加可用接收场的数量来改进多尺度表示。
-
capsule网络:提出一种新的动态路由算法,更关注本地位置。理念是使用一组胶囊capsule来表示实体的不同属性,而部分与整体的关系则通过路由算法隐式地学习。
-
mcg-resnet50:res2net的扩展。在特征组之间的连接中启用了信道门机制。
-
res-tssdnet:功能强大的基于原始波形的端到端合成语音检测网络。两种先进的cnn结构组合(resnet风格的跳接连接,inception风格的并行卷积)。
-
rawgat-st:也是一种基于原始波形的端到端add模型。主要贡献是一个频谱-时间图注意力网络(gat),可以学习到跨越不同子带和时间间隔的线索之间的关系。
-
m2s-add:新颖的add模型。试图在单声道到立体声的转换过程中发现音频的真实性线索。
-
先用预训练的双耳音频合成器将单声道原始波形投射到双耳信号中
-
然后用双分支神经架构处理左右声道信号
-
来揭示假音频中的伪音
-
对于帧级add--3
-
lcnn-bilstm(a:lcnn为骨干,bilstm层来学习全局时序上下文知识
-
selcnn-blstm:lcnn骨干,在其中插入se块,增强隐藏特征选择的能力,bm层作为分类器做出决策
-
lcnn-bm(b:与a不同的是利用基于wav2vec2.0的特征来增强帧级检测能力
主要成果
- mscr-add优于所有基线
名词解释
特征空间:
-
所有特征向量组成的空间
-
在语音识别任务中,是所有语音特征的集合
帧级特征:
- 音频信息的每一帧提取特征
通道:
-
语音信号的不同频段
-
若将语音信号分为低频、中频、高频三个频段,每个频段可看作一个通道
路由算法:
信道门机制:
-
一种门控机制
-
可根据输入动态选择信道特征
-
抑制相关性低的信道,增强泛化能力
2.27--语音深度伪造和欺诈检测的原始可微架构搜索(2019ASV)
本文提出一种自动学习的网络架构,联合优化其他网络组件和参数。这种网络架构基于可微分架构搜索pc-darts的变体,即部分连接可微分架构搜索,与完全E2E结构,实现直接在原始波形上运行的深伪检测方案。
raw PC-DARTS系统

模型结构如图:
-
前端sinc滤波器组,提取特征。每个滤波器对输入波形进行时域卷积
-
conv_1是一个随机初始化、可学习的卷积块,用于替代sinc滤波器
-
搜索空间O基于卷积操作设计
-
模型由normal cell正常单元和expand cell扩展单元依次堆叠 。这两个单元都会将输入的特征数据减半,但是扩展单元能将通道数量增加一倍
-
最终单元产生的帧级表示被送入门控循环单元GRU层
-
传递到全连接层提取嵌入
-
这篇研究的损失函数是均方误差MSE
名词解释
darts:
-
一种架构搜索算法
-
是基于可微分的神经网络架构搜索方法,可用于搜索各种深度学习模型的架构
-
主要思想就是将神经网络架构表示为一个连续的搜索空间,用梯度下降算法来搜索该空间的最佳架构
-
具体来说,darts先定义一个可能包含所有可能架构的超网,用梯度下降算法来调整超网中的权重
sinc滤波器:
-
是一种低通滤波器
-
频域响应为矩形函数,时域响应为sinc函数
GRU门控循环单元:
- 改进的RNN(循环神经网络)
部分通道连接:
-
用于提高虚拟通道(VC)连接效率的技术,提高通道利用效率
-
实现方式
-
多路复用:允许在同一个VC中同时传输多个不同类型的流量,在接收端分离
-
分割:将一个VC划分为多个子通道,每个子通道传输一种类型的流量
-
最大池化操作:
- 在一定区域内寻找极大值,降低数据维数同时保留特征
E2E架构:
-
从语音采集到最终合成语音的完整流程
-
关键技术
-
深度学习
-
循环神经网络(RNN)
-
注意力机制
-
梯度下降
-
2.28-- 用于合成语音检测的深度相关网络DCN(2019+2021ASV)
这篇文章的出发点在于:不同的特征都能表示真实语音和伪造语音的差异,那么特征之间必然存在共同信息,有效的发现并充分利用这些信息对于合成语音检测由更好的辨别能力。
因此,该网络DCN的提出就是为了更好地学习不同嵌入之间的潜在共同信息。本文将一个共同嵌入定义为该共同信息的表示。
DCN
它是一个端到端网络,其结构如图,由两部分组成:
-
双并行网络
-
有两种不同的网络模型
-
这两个网络都是使用CQT频谱图作为输入,但处理方法不同,提取到两种有效的嵌入(特征)也不同
-
双平行网络的输出是相关学习网络的输入
-
-
相关学习网络
- 它可以相互关联上述提到的嵌入来获得共同信息
- 在获得了两个前端声学特征的中层表示后,可建立二者的关系
- 将中层表示看作是观察变量,定义一个共同的潜在变量来表示两个观察变量的共同信息。
- 这个潜在变量可以通过一些线性变换转换为观察变量
-
损失函数(整个网络的目标函数)由两部分组成
-
NLLK负对数似然函数
- 作为相关学习网络的损失函数,为了更新模型参数
-
CE交叉熵损失函数
- 在EM算法的E步骤中更新共同潜变量的后验均值向量和后验相关矩阵
-
优化
因为得到的NLLK损失函数公式同时包含参数和潜在变量,同时更新他们很困难。基于此本文提出一种基于EM算法的正向传播和反向传播更新算法。
正向传播:
-
E步:期望步骤,在本文中用于更新共同的潜在变量
-
M步:最大化步骤,用于更新参数
反向传播:
- 使用梯度下降再次更新参数
消融研究
这篇文章有一个亮点,就是为了展示DCN中每个组件的重要性,对网络的不同模块进行了一系列消融研究。同时为了更直观的展示不同网络的性能,本文采用了可视化分析:紫色点代表合成语音,黄色点代表真实语音。
DCN网络变种:
-
s1--BiA双注意力残差网络
-
s2--SCG
-
s3--ResNet18
-
s12
-
s13
-
s23
将参数降维到二维可得图像如图,得到结论:
-
无论哪两种类型的网络作为DCN中双并行网络的输入都优于单独的网络,可以推断DCN能够利用不同网络特征的共同信息来提高网络性能;
-
基于DCN网络的系统能够清晰的区分两个簇,而其他单独的方法的紫色点却有多个簇存在。因此可知,DCN能更好地减少同一大类之中子类别之间的差异。
名词解释
CQT频谱图:
-
常Q变换频谱图
-
能用以对数为尺度表示时间-频率之间的关系,并且在高频区域有更高的分辨率
中层表示:
- 源代码和目标代码之间的桥梁
EM算法:
-
是一种迭代算法
-
用于含有隐变量的概率模型参数的最大似然估计或最大后验估计
-
基本思想就是通过迭代来求解概率模型的参数
-
每次迭代EM算法都有两个步骤
-
E步:期望步骤,根据当前模型的参数/观测数据计算潜在变量的期望值
-
M步:最大化步骤,根据e步得到的期望值,最大化模型参数的似然函数或后验概率
-
消融研究:
-
评估机器学习模型中不同组件重要性的研究方法
-
基本思想就是通过逐个删除模型中的组件,观察模型性能的变化
2.29--自注意力和混合特征用于重放和深度伪造音频检测
本文有两个贡献,主要是:
-
混合特征
-
将深度学习特征与mel特征相结合,取代之前的传统特征
-
深度学习特征由CNN提取,提取步骤主要有(蓝色方框)
-
统一长度
-
汉明窗口分帧,得到短期稳定信号的信号表示
-
7x7的卷积核作为滤波器,降维
-
在批量归一化和relu激活函数之后又用5x5卷积核降维
-
再用3x3卷积核重复这一步骤
-
最后批量归一化之后得到深度学习特征
-
-
mel特征提取方式有:(如金色方框所示)
-
预先强调,增强高频段的能量
-
统一长度
-
用汉明窗口分帧
-
用STFT和mel滤波器组得到mel频谱图
-
批量归一化处理后得到mel频谱图
-
-
-
自注意力
- 本文定义为一种混合特征后的自注意力机制,试图找到混合特征的自相关性。该机制主要关注伪造语音中的基本要素,把resnet作为分类器以取得更好的通用性。
-
损失函数
-
本文提出的神经网络通过sigmoid激活函数和二元交叉熵BCE训练成二元分类器
-
所以采用BCE损失函数来简化训练。
-
本文提出的框架中,音频信号将被分为两条平行路径:
-
第一条路径--蓝色方框,对信号进行预处理,提取深度学习特征
-
金色方框,通过预加重,调整大小,取帧和短时傅里叶变换,来提取Mel频谱特征
-
然后通过串联最大池化层,得到音频混合特征。
-
这些特征被放入自注意力模块(b)
-
该模块之后是resnet块(c),是后端分类器
-
最后是衬垫层(线性层),得到二进制输出
名词解释
BN:
- 批量归一化
BCE损失函数:
-
二分类问题中常用的损失函数
-
可直观理解为
-
预测值与真实标签一致:函数值=0
-
不一致:值越大,模型预测错误程度越高
-
3.2--使用whisper特征改进deepfake检测
whisper
-
是最先进的自动语音识别(ASR)系统
-
在本文中多次出现whisper功能,就是指使用whisper模型进行语音识别
-
因为来自于大型和多样化训练的语音语料库,whisper可以忽略大部分自然特征出现的伪影并识别伪造语音样品
-
特别有助于解决泛化问题
-
基于最基本的编码器-解码器transformer架构
-
其编码器基于两个卷积层,每个层由GeLU激活函数
-
随后添加位置嵌入来修改信息
-
编码器之后有一系列的预激活残余注意力块
-
接下来是归一化层
-
-
文中作者还提到了另一位研究者提出的类似方法
-
就是使用基于wav2vec2.0的前端模型
-
但是该最初被设计为了无监督的预训练模型,而whisper用于自监督
-
检测模型
-
考虑了四种模型
-
LCNN--使用whisper前端进行微调
-
MesoNet--使用MFCC特征(是在这几个模型中训练得到的最佳模型)
-
SpecRNet--使用LFCC特征
-
frozen冻结--指的是whisper编码器没有对结果进行微调
-
tuned指whisper编码器成功微调
-
-
前三种用来处理类似频谱图的特征,用于DF检测
-
RawNet3与前四个模型相比使用了whisper和MFCC特征,没有微调。用于分析原始音频,提取特征。
-
-
在训练的过程中,他们使用了串联多个前端来提高探测器的有效性。基于频谱图的模型,考虑到了经典前端和whisper编码器的串联
-
DF检测与原始音频分析
-
DF检测--识别虚假音频
-
原始音频分析--提取特征
-
-
数据集
-
ASVspoof
-
DeepFakes In-The-Wild
-
特性比较
-
specrnet和mesonet是成绩最好的两种架构,主要有卷积层和最大池层组成
-
为了检查不同前端是否生成不同特征,将这两种架构进行比较
-
使用一种对抗性攻击中已知的技术,计算输入数据的梯度
-
结果表明specrnet使用GRU(循环层)处理,m从32x32的空间分布快接受最大池化信息
名词解释
transformer
- 编码器-解码器架构
GeLU激活函数
-
类sigmoid函数(用于分类任务)都是将输入值映射到0-1之间,非线性激活函数
-
sigmoid函数会导致梯度消失问题,而GeLU会避免
预激活残余注意力块
-
改进的残余注意力块,能提高注意力机制的效率和性能
-
组成部分
-
输入
-
预激活:将输入映射到0-1之间
-
注意力机制:特征给与权重
-
残差连接:输入与注意力机制的输出进行残差连接
-
后激活
-
残差连接
-
将当前层的输入与输出直接相加,形成下一层的输入,从而解决梯度消失/爆炸问题
-
通常被应用到包含多个层的神经网络中,如残差网络ResNet
归一化层
- 对神经网络的输入/输出进行归一化处理,让样本特征有相同的分布

浙公网安备 33010602011771号