语音数据集:OPEN-SOURCE ANECHOIC INTERFERER DATASET

在本文中提出了一个新的数据集,该数据集包含家庭环境中遇到的各种声源的消声记录。作为数据集的补充,我们提供了一个 Python 库,用于从消声记录中生成多通道、随机混合语音。此外,可以生成具有用户定义的频谱斜率的调制噪声信号,其中时间包络是根据消声噪声记录计算的。生成的数据可用于在具有挑战性的声学环境中对麦克风信号进行真实模拟,这需要访问每个声源和麦克风之间的消声源材料和 AIR。在本文第 2 节中,概述了测量过程和设置,第 3 节涵盖了实际数据集。第 4 节详细讨论了信号发生器,第 5 节进行了总结。

2. 测量

数据集中所有样本的记录均在德国伊尔梅瑙的弗劳恩霍夫数字媒体技术研究所 IDMT 的消声室中进行。该腔室按照 DIN EN ISO 3745 和 DIN EN 60268-5 标准建造,采用基于弹性轴承的室内设计,尺寸为 9.4m*4.93m*6.9m (L*W*H)。房间边界表面完全衬有楔形吸收器,房间响应完全无回声,频率低至63Hz。一个金属网格平台,用作各种声源的安装表面,大约安装在房间的中央。

使用了三种不同的麦克风,制造商 Røde 的 NT1 和 NT5 电容式麦克风,以及制造商 Sennheiser 的 MHK 800 电容式麦克风,用于记录各种声源。 所有麦克风的轴都朝向金属平台,每个麦克风的膜片表面都垂直于声源的方向。图说明了金属平台和消声室中的麦克风的布置。在来自源的不同方向使用不同的麦克风,有效地增加了收集的数据集的大小和多样性。使用 RME Fireface UFX II 为电容式麦克风提供幻象电源并放大接收到的信号。考虑到记录的不同声源的大动态范围,三个麦克风的前置放大增益分别固定到最大声音达到大约-6dBFS的峰值幅度的水平。所有信号均以48kHz的采样率和24位的位深度记录。

消声室中录音设置的俯视图,三个麦克风以大约相等的距离放置在金属平台周围,所有声音都在金属平台上产生。所示距离以毫米为单位。

3. DATASET

该数据集由家庭环境中遇到的 44 种不同类型声源的消声记录组成,每个声源的单独记录数量在2到11之间变化。声源主要是家用设备和公用设施,包括门钥匙、塑料袋、衣服、钻孔机、电动搅拌机、玻璃罐和金属盒,还有一些人为的声音,如拍手、呼吸、啪啪声或吹口哨。录音通过不同的激发方式记录来自每个单独来源的多种声音,例如敲击和摇晃,或打开和关闭电子设备,涵盖了广泛的音色。

下表列出了数据集中包含的所有声源和不同声音的数量,并根据两个感知属性(瞬态连续和嘈杂谐波)进行了非正式分类。如第 2 节所述,所有声音都使用三个不同的麦克风录制,产生 762 个持续时间从 0.18 秒到 43 秒的单独信号。单个录音以 .wav 文件格式存储,并根据 soundsource_index_microphone.wav 命名,其中 soundsource 对应于表 2 中的标签,索引从 1 到每个源的单个录音数量不等,如表 2 所示,麦克风是NT1、NT5 或 MKH800。完整的数据集,包括所有单独的录音,可以在线访问。(https://www.audiolabs-erlangen.de/resources/2022-IWAENC-Anechoic-Noise-Dataset)

4. 信号发生器

下面介绍了从消声记录中生成随机混合的动机和实现细节。此外,还讨论了信号发生器功能的扩展以产生调制噪声信号。此处提供了随机样本和调制噪声生成的 Python 实现(https://github.com/audiolabs/anechoic-noise)。

4.1 干扰混合

用于开发和评估针对挑战性条件的的非平稳干扰信号在许多音频相关领域中无处不在。在许多情况下,干扰信号与脉冲响应进行卷积,以模拟混响环境中的声源。然而,这些信号的具体用途,例如它们的表示(时间与频域),或它们与感兴趣的信号对比的功率比,取决于特定的应用环境。为了用一种生成消声、非平稳干扰的方法来补充所呈现的数据集,作者提供了一个 Python 库,可用于将多个消声噪声记录随机排列成单通道干扰信号,该信号以 wav 文件格式存储。用户可以指定干扰信号中任何时间点同时播放的单个记录 k 的数量,从而提供对时间密度的控制。下图显示了这种组合的一个示例。在存在多个干扰源的情况下,可以增加单通道干扰信号的数量,每个混合都存储在单独的 wav 文件通道中。

将无回声录音信号汇总为随机混合(底部),同时播放k = 3个声音,虚线表示单个样本的端点。

4.2.调制噪声

在大多数消声记录中,信号功率在整个频谱中分布不均匀,导致不同生成的样本之间存在相当大的差异。但是,在某些情况下,这些声音的瞬态特性而不是频率选择特性是可取的。为了适应这一要求,信号发生器是扩展以产生瞬态的有色噪声信号,其时间幅度包络是从数据集中的记录中获得的。随机混合信号$x[n]$的包络$ex[n]$是通过对幅度递减的信号段进行自动递归平均来计算的。以秒为单位指定的平均时间常数 τ 提供对噪声瞬变的时间衰减率的控制:

$$e_{x}[n]=\left\{\begin{array}{ll}
(1-\alpha) e_{x}[n-1]+\alpha|x[n]|, & \text { if }|x[n]|<e_{x}[n-1] \\
|x[n]|, & \text { otherwise }
\end{array}\right.$$

其中平均系数$\alpha=1-\exp (-T / \tau)$,$T$表示采样间隔。有色噪声信号由具有用户定义的频谱幅度斜率指数β的高斯白噪声过程$w[n]$生成,其功率谱密度等于

$$S\left(\omega_{k}\right)=\mathbb{E}\left\{\omega_{k}^{-\beta}\left|W\left(\omega_{k}\right)\right|^{2}\right\}$$

其中$W\left(\omega_{k}\right)$是$w[n]$的自相关函数在频率$\omega_{k}$处的离散傅立叶变换。例如,当 β 设置为零时,产生的噪声信号具有白色(平坦)频谱,β 设置为 1 将导致粉红色频谱。最后,信号与包络$ex[n]$相乘,得到调制噪声信号。

5. 结论

本文提供了一个数据集,其中包含家庭环境中遇到的各种声源的消声记录。非平稳信号的收集使研究人员能够通过消声源材料和声脉冲响应的卷积来模拟各种声学场景。此外,还提供了一个 Python 库来生成用于用作非平稳干扰信号的消声声音的随机样本。

posted @ 2022-08-10 11:07  乔佛里大帝  阅读(291)  评论(0)    收藏  举报