论文笔记：Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介绍

受到CASA的启发，提出了一种deep casa方法，用于两个说话人的分离。不依赖说话人的分离问题需要解决置换问题（permutation problem）。主要通过PIT和DC两种主要方法来解决置换问题。

本文提出的方法在simultaneous grouping阶段，利用具有密集连接层的 UNet 卷积神经网络 (CNN) 来提高帧级分离的性能。为了克服逆STFT中噪声相位的影响，探索了新的复值STFT训练目标函数和time domain训练函数来进行train。在sequential grouping阶段，使用TCN网络来改善性能（在说话人跟踪方面表现较好）。

Deep CASA

Simultaneous Grouping Stage

这一阶段用于将每一帧的频谱分离为两个说话人。对应第c个说话人的STFT估计。训练过程遵循tPIT准则。Dense-UNet网络的输出成估计不同说话人的T-F masks，然后将混合的频谱与mask相乘，就可以实现说话人分离![image-20220406101124843](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406101124843.png)

Sequential Grouping Stage

这一阶段的主要目的在于track所有帧级别的频谱估计将他们分配给不同的说话人。

将混合的频谱和说话人频谱的估计共同作为网络的输入。NN网络通过训练，可以将每一个帧级别的输入变为一个D维的embedding vector V(t)。Target label A(t)用来表示tPIT输出的分配。之后提出了这一阶段的训练目标函数：![image-20220406102010224](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406102010224.png)

通过训练这一函数，对应于相同分配的V(t),变得更近，不同分配的V(t)变得更远。因此在inference阶段，用K-means算法来对V(t)进行聚类，在每一帧产生binary label，用于组织Simultaneous Grouping Stage的帧级输出。

posted @ 2022-04-17 15:20 weihy 阅读(143) 评论(0) 收藏举报

刷新页面返回顶部

weihy

论文笔记：Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介绍

Deep CASA

Simultaneous Grouping Stage

Sequential Grouping Stage

公告