声源定位

特点

声源定位是一种被动式定位,与雷达相反,不需要传感器主动发出探测信号。

应用场景

在民用领域,声源定位技术广泛应用于大型会议、智能机器人和安防监控等场景。在大型音视频会议场景中,通过声源跟踪和语音增强可以获得更好的会议拾音效果。

改进方向

  • 从麦克风阵列入手(比如改变阵列的形状)
  • 从定位算法入手,针对不同的场景去改进算法。

麦克风阵列

其中URA为均匀矩形阵列,ULA是均匀线性阵列

一维阵列(线阵)

  • 均匀线阵
  • 互质阵列
  • 嵌套阵列
  • 最小冗余阵列

一维阵列能接收到的时空信息较少,只能定位水平方向的方位角,而不能得到声源俯仰角的信息

二维阵列

  • 圆阵
  • 方阵
  • 十字阵

二维麦克风阵列改善了一维麦克风阵列只能给出声源方位角的缺点,它还能够计算出俯仰角。

二维麦克风相对于一维麦克风在算法复杂度和计算量上有了一定提高。

三维阵列

  • 圆柱形阵列
  • 球形阵列

三维麦克风阵列是一种立体阵列,它可以对声源进行三维定位。

然三维阵列没有定位盲区且定位精度很高,但是适合该阵列的算法较少,且结构设计复杂,成本高, 计算量很大,相关研究较少。


基于到达时间差的声源定位方法(TDOA)

  1. 如果目标声源只有一个,外加一些环境噪声,那么TDOA可以用来指导beamformer对该方向的信号进行增强。

  2. 如果存在多个说话人,且说话人的方位不同,比如圆桌会议这种,那么:

    • 估计的TDOA的数目可以认为是说话人的数量(speaker counting)
    • 通过跟踪TDOA的变化,追踪特定的说话人
    • 对同一段语音,对估计的DOA方向进行增强,增强说话人

DOA 是到达方向差,在麦克风拓扑结构已知时,DOA和TDOA可以互相转换,DOA表示信号源相对麦克风的到达角度,一般用 表示,如果是线阵的话,范围在0到180度之间。

  • 到达时间差就是声源信号到达不同麦克风阵元的时间差。该算法就是利用这个时间差和麦克风阵列的结构运用几何算法来得到声源位置。
  • TDOA方法用少量的麦克风即可实现声源定位

影响定位的因素:

  • 麦克风阵列的结构
  • 时延算法的选择

时延估计算法

得到广泛应用的主要是广义互相关法(GCC)和自适应的最小均分算法(LMS)

指标:时延标准差

image-20231020093724305

各个麦克风接收的信号会有很强的延时相关性,互相关函数可以很好的描述这些信号的延迟相关性。

方法:基本互相关法、广义互相关法、二次互相关算法、二次互相关改进算法。

基本互相关法

前提:

  • 假定阵列中声传感器采集到的信号来自同一个声源
  • 信号和噪声不存在相关,不同的噪声之间也不存在相关

将信号进行互相关处理,互相关函数取得最大值时的t就是所求时延。

广义互相关法(在基本互相关法的基础上,与频域加权函数相结合)(GCC)

傅里叶变换,将其从时域变换到频域,而后进行求互功率
谱、频域加权以及傅里叶反变换的运算转回时域,在时域中
找相互关方程的峰值

加权函数 函数表达式 基本特性
基本互相关 1 受环境噪声、接受信号长度影响大
PHAT 1 𝐺𝑥1𝑥1(𝑤) 峰值突出,在噪声和混响干扰严重的场景中 具有良好的性能
ROTH 1 (𝐺𝑥1𝑥1(𝑤)𝐺𝑥2𝑥2(𝑤)) 能够有效抑制噪声较大的频带内噪声,但会加宽函数峰处的展宽
SCOT 1 𝐺𝑥1𝑥2(𝑤) 对信号不稳定时的时延估计帮助明显,当 𝐺𝑥1𝑥1 = 𝐺𝑥2𝑥2时,该加权等价于 ROTH 加权, 也会使峰值展宽。
HB 抑制信号的周期分量,但噪声干扰严重时与 基本互相关类似

加权函数的作用

  • 基于互功率谱变化的相位加权函数(PHAT)
    • 互功率谱相对比较平滑,互相关时延误差更小
    • GCC-PHAT方法的局限性还表现在仅仅只能依据两路信号进行估计。如果现在有多路麦克风,那么就需要在原有算法的基础上进行改进。这部分由于我还没有具体的实践,暂时无法继续深入。
    • GCC-PHAT算法是用在近场模型下的。
  • image-20231020092033081
  • 基于ROTH处理器的加权函数(ROTH)
    • 对噪声较大的频带有着较好的抑制效果.
    • 会展宽信号的峰值,使得信号的时延峰值和环境干扰形成的伪峰值混在一起无法区分.

image-20231020092605096

  • 基于平滑相关的加权函数(SCOT)
    • 同时考虑了两个通道对互相关函数峰值的影响。

image-20231020092901846

  • 基于最大似然的加权函数(ML)

    • 通过给与不同频段内的互相关函数施加不同的权值达到抑制噪声锐化峰值的目的。

    image-20231020092949245

    image-20231020093020105

最小均分自适应时延估计

原理:让延迟信号Xi(n)不断去逼近Xi(n),使得两信号对齐,LMS不断跳转滤波系数的过程中,h(n)会在实际时延处为单位值。

缺点:LMS自适应时延估计方法只能直接处理整数时延,遇到非整数时延时一般需要借助其他方法,如内插法等。

image-20231020165401159

位置估计方法

方法:球形插值定位方法、最大似然估计定位方法、几何定位方法。

  • 球形插值定位方法(球面波)

  • 最大似然估计定位方法

  • 几何定位方法


高分辨率谱估计

特点

基于高分辨率谱估计的声源定位技术可实现任意精度的定位,主要是因为信号的采样频率不会限制它的空间分辨率

  • 通过提高对接收信号的谱估计分辨率从而对声源音波的发出方向进行估测的方法。
  • 基于高分辨率谱估计的源定位技术主要是通过接收信号之间的相关矩阵的空间谱,根据传感器之间的相关矩阵可以求解获取方向角。
  • 高分辨率谱估计方法的最大优点是可以达到很高的角度分辨率,可以同时对多个声源的方位进行估计,常用于多声源定位。

方法一(子空间拟合类算法)

一种是通过求解阵列的自相关矩阵中的主特征向量也就是声发射源子空间的主分量方法

  • 最小方差谱估计(MV)
  • 自回归模型(AR)

方法二(特征子空间算法)

**方法:**子空间MUSIC方法

MUSIC(多重信号分类)算法

MUSIC算法通常用于估计小范围内的信号方向,因为如果信号的数量大于阵元数,那么信号子空间将成为一个零维空间。噪声子空间的维数通常与阵元数相等。
维数(信号子空间) + 维数(噪声子空间) = N

由于声源信号是宽带信号,可以对声源信号使用傅立叶变换分解成多个窄带信号,再对每个窄带利用MUSIC算法定位,将各窄带估计得结果加权组合得宽带方位估计。

信号数需小于阵元数,是传统基于子空间方法(分解出信号子空间和噪声子空间)产生的一个约束,是由方法本身决定的。(因为需要子空间分解)

music算法步骤:

  • 计算接收信号的协方差矩阵
  • 对协方差矩阵进行特征分解
  • 对特征值进行排序,根据已经确定的声源数取得r个最大特征值
  • r个最大特征值对应的特征向量为为信号特征向量,其余为噪声特征向量
  • 其中特征向量通常表示信号的方向(DOA),而特征值表示特征向量的重要性。

在获得信号特征值和特征向量、噪声特征值和特征向量后(也就是信号子空间和噪声子空间),可以通过以下方法计算DOA:

  • 频谱搜索
  • 求多项式根

在 MUSIC 算法中,通过计算信号波束和噪声子空间的投影,可以确定信号的可能入射方向


基于波束形成的方法(也叫空域滤波)(beamformer要想表现的完美,准确的DoA不可或缺)

  • 对麦克风阵列的接收朝向进行调控,在定位区域进行搜索,使麦克风阵列朝向声源,然后计算出声源位置。
  • 导向向量(steer vector)是在多通道语音信号处理中经常出现的一个概念,从我的接触上说,主要集中在波束形成,声源定位里面,它描述的是声源到每个麦克风处的延时
  • 在假想声源位置计算所有麦克风对接收信号的相位变换加权的广义互相关GCC-PHAT函数之和,在整个声源空间寻找使SRP值最大的点即为声源位置估计
  • 基本思想是在可能的空间点中做波束合成,然后根据合成后的各个方向上的功率最大值认为是声源方法
  • 在以往的传统波束形成器中, 其权值主要是根据接收到的声源信号的相位延迟决定,而相位主要与时延和声源 到达传感器的延迟(DOA)有关,所以这种方法也被称为时延求和波束形成器。
  • 波束形成器可以被看作一个空间滤波器,通过构造特定的波束模式, 也即方向特性函数,使得来自空间中不同方向的信号在阵列中获得不同的增益,从而达 到增强目标方位的信号、抑制其他方位信号的目的。
  • 当阵列的波束模式正好对准声源信号时,阵列的波束输出功率最大
  1. 时域方法:对每个支路进行合适的延时,对各麦克风上接受信号的时间进行补偿,使信号到达阵列时等效为是同一波面同时到达各麦克风;
  2. 频域方法:首先将宽带信号在频域分解为若干个子带,对子带信号进行窄带波束形成后,通过合成得到宽带波束输出。
  3. 麦克风阵列信号处理通常由 **自适应波束形成 **和 **后置滤波 **两个部分组成。

固定波束形成

在工作中只增强事先设定的方向信号

可控波束响应(SRP)

对阵型没有特定要求

利用波束形成(beamforming)的方法,对空间不同方向的声音进行增强,得到声音信号最强的方向就被认为是声源的方向。

delay-sum(延时求和方法)

DS首先需要做的是在时域上进行对齐,之后叠加取均值。

steer vector直接就构成beam的权值

这种方法主要通过采用延迟补偿的方式来补偿声音信号从声源传输到麦克风传感器之间的传播延迟。

在实际应用中,阵列结构都是固定的,因此传统的延时求和波束形成技术有很大的局限性

  • 需要麦克风的数量相对较多,

  • 如果噪声源是相干的,降噪效果会强烈地依赖于噪声信号的到达方向,延迟求和波束形成在混响环境中的性能往往是不够好的。

  • 由于可以有效地减轻非相干噪声,该类波束形成器仍然被广泛使用。

自适应波束形成

如果可以实时的根据信号环境调整DoA,那么在工作中,beamformer的指向性便会发生改变

MVDR(最小方差无失真响应波束形成)

MVDR是一种自适应波束形成算法

算法名称 适用噪声场 优势 劣势
delay-sum 非相干 简单易实现 低频性能差,适用窄带
filter-sum 非相干 可做恒定宽度波束形成,失真小 低频性能差
超分辨 散射噪声场 增益可以提高 假设了散射噪声场,计算量大
GSC 相干 自适应噪声场 低频性能差,阻塞矩阵泄露导致失真,计算量大
相位差 非相干 提高信噪比 频域操作,包含非线性运算
后置滤波 散射噪声场 自适应噪声场,提高波束输出 属于非线性处理,估计不准引起失真,非线性计算误差较大

导向向量(steer vetor)

算法

鲁棒性

FRIDA > MUSIC > SRP-PHAT >TOPS

角分辨率

FRIDA > MUSIC > SRP-PHAT

基于相关性的方法比非相关性方法差。


性能指标

  • 均方根误差


深度学习方法

问题

  • 模型选择问题
  • 训练数据的问题:目前还没有可用于麦克风阵列声源定位的数据集
  • 对声源分布的假设,多是基于理想平面圆周分布,不符合真实环境的声源分布规律

声源定位数据集

posted @ 2023-11-08 11:57  c_root_m  阅读(1420)  评论(0)    收藏  举报