论文笔记:Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介绍

受到CASA的启发,提出了一种deep casa方法,用于两个说话人的分离。不依赖说话人的分离问题需要解决置换问题(permutation problem)。主要通过PIT和DC两种主要方法来解决置换问题。

本文提出的方法在simultaneous grouping阶段,利用具有密集连接层 的 UNet 卷积神经网络 (CNN) 来提高帧级分离的性能。为了克服逆STFT中噪声相位的影响,探索了新的复值STFT训练目标函数和time domain训练函数来进行train。在sequential grouping阶段,使用TCN网络来改善性能(在说话人跟踪方面表现较好)。

Deep CASA

Simultaneous Grouping Stage

这一阶段用于将每一帧的频谱分离为两个说话人。image-20220406100912906 对应第c个说话人的STFT估计。训练过程遵循tPIT准则。Dense-UNet网络的输出成估计 不同说话人的T-F masks,然后将混合的频谱与mask相乘,就可以实现说话人分离![image-20220406101124843](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406101124843.png)

Sequential Grouping Stage

这一阶段的主要目的在于track所有帧级别的频谱估计image-20220406101431700 将他们分配给不同的说话人。

将混合的频谱和说话人频谱的估计共同作为网络的输入。NN网络通过训练,可以将每一个帧级别的输入变为一个D维的embedding vector V(t)。Target label A(t)用来表示tPIT输出的分配。之后提出了这一阶段的训练目标函数:![image-20220406102010224](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406102010224.png)

通过训练这一函数,对应于相同分配的V(t),变得更近,不同分配的V(t)变得更远。因此在inference阶段,用K-means算法来对V(t)进行聚类,在每一帧产生binary label,用于组织Simultaneous Grouping Stage的帧级输出。

image-20220406102434043
posted @ 2022-04-17 15:20  weihy  阅读(91)  评论(0编辑  收藏  举报