论文翻译：2018_Source localization using deep neural networks in a shallow water environment

论文地址：https://asa.scitation.org/doi/abs/10.1121/1.5036725

深度神经网络在浅水环境中的源定位

摘要：

　　深度神经网络(DNNs)在表征复杂的非线性关系方面具有优势。本文将DNNs应用于浅水环境下的源定位。提出了两种方法，通过不同的神经网络结构来估计宽带源的范围和深度。第一阶段采用经典的两阶段方案，特征提取和DNN分析是两个独立的步骤;与模态信号空间相关联的特征向量被提取为输入特征。然后，利用时滞神经网络对长期特征表示进行建模，构建回归模型;第二个问题是关于卷积神经网络?前馈神经网络(CNN-FNN)体系结构，以原始多通道波形作为输入，直接对网络进行训练。期望CNNs对多通道信号进行空间滤波，其操作类似于时域滤波器。将神经网络的输出求和作为模糊神经网络的输入。对仿真数据和实验数据进行了实验，以评估所提方法的性能。结果表明，DNNs在复杂多变的水环境中，特别是在缺乏精确环境信息的情况下，能够有效地进行源定位。

I 引言

　　在过去的几十年里，浅水环境中的源定位问题受到了研究者们的广泛关注。对于低频宽带信号，已经报道了许多距离深度估计的方法。这些方法通常可以分为两类:基于模型的和基于数据的。对于第一类，通常需要事先知道声环境参数[如声速剖面(SSP)和海底声学特性]。匹配域处理(MFP)是一种著名的基于模型的方法。MFP使用传播模型计算副本，然后将实验域与模型域最匹配的位置作为估计的源位置。然而，环境参数通常是变化的。难以获得对真实环境的完整了解可能导致不正确或不准确的定位结果。

　　为了减少对环境信息的依赖，提出了几种基于数据的定位方法。使用引导源的无源测距通过将引导源在一个频率分量上的场与不同频率分量上不同距离上的未知源场相关联来估计未知源的范围提出了基于波束时间偏移的阵列/波导不变性源距离估计方法。机器学习是一种著名的数据驱动技术，它通过探索原始数据的统计特性来学习潜在模式。许多机器学习算法被引入到源本地化，将其作为一个分类或回归任务。

　　然而，大多数基于机器学习的源定位研究都是基于传统的分类器或对环境变化敏感的浅前馈神经网络(FNNs)。尽管被动声测距采用了卷积神经网络(CNN)，它是为使用单个传感器的近场场景设计的，以便可以测量声音直接传播路径和间接传播路径之间的时间延迟。在远场场景中，基于深度神经网络(DNNs)的多传感器阵列源定位方法鲜有报道。近年来，DNNs在语音识别、语音增强、图像识别、和自然语言处理等领域取得了显著的成果，因为它具有较强的非线性表示、适应性和泛化能力。在本文中，我们利用DNNs在浅水环境中使用垂直线性阵列(VLA)来估计源的位置。

　　提出了两种基于DNN的宽带源定位方法。第一阶段采用特征提取和DNN分析两阶段方案。将模态信号空间对应的特征向量作为神经网络的输入特征。然后，训练时延神经网络(TDNN)估计声源的距离和深度。

　　第二种方法采用卷积神经网络-前馈神经网络(CNN-FNN)体系结构，直接从波形中学习映射关系。CNNs作为时域卷积滤波器，从原始多通道信号中提取声源的空间信息，因为不同方向辐射的信号会导致传感器之间产生不同的强度差和相位差。CNNs提取的位置表示由以下FNN层收集。据我们所知，这是第一个基于DNN的方法，直接从原始波形定位声源。

　　然而，DNN的性能通常受到数据集大小的限制。我们的实验表明，在训练数据收集成本很高的实际应用中，合成训练数据是一种可行的方法。与传统的数据驱动定位方法相比，本文提出的方法有两个主要优点。首先，本方法可以通过多风格训练(MST,指使用不同条件下的数据来训练通用模型)应用于相对复杂的环境，如测试环境与训练环境不匹配。其次，只要模拟数据所覆盖的测试环境，在实验数据不足的情况下，对模拟数据进行合并是可行的，以确保具有竞争性能。这两个特性使得所提出的方法可以在更广泛的情况下部署，并在现实环境中实现更好的鲁棒性。

　　本文的其余部分组织如下。第二节给出了信号模型。第三节回顾了传统的(Bartlett) MFP方法。第四节和第五节分别详细描述了本文提出的基于特征的定位方法和基于波形的方法。第六节给出了各种实验进行评价，第七节总结了这项工作。

II 信号模型

　　假设在远场场景中，一个宽带声源冲击K个传感器的VLA。源位置表示为一个二维向量$\left(r_{s}, z_{s}\right)$。第$k$个传感器在深度$z_{k}$处使用距离无关波导中的正常模式模型接收的信号在频域中表示为

\[P\left(r_{s}, z_{s}, z_{k}\right)=a b \sum_{m=1}^{M} \frac{\Psi_{m}\left(z_{s}\right) \Psi_{m}\left(z_{k}\right)}{\sqrt{k_{m} r_{s}}} e^{j k_{m} r_{s}}+N\left(z_{k}\right)　　(1) \]

式中，a为源的复振幅，$b=\left\{j /\left[\rho\left(z_{s}\right) \sqrt{8 \pi}\right]\right\} e^{-j \pi / 4}$,k_{m}^{2}是与MTH模态相关的特征值，$\rho\left(z_{s}\right)$表示源处的密度，$\Psi_{m}\left(z_{s}\right)$ 和 $\Psi_{m}\left(z_{k}\right)$表示源端和接收端的第m模态本征函数，$j=\sqrt{-1}$表示虚单位，$N\left(z_{k}\right)$为第k个传感器处的加性噪声，并且M (M < K)为水柱中的模态数(高阶模态视为噪声)。本研究不考虑范围相关的情况。
　　采用矩阵表示法，传感器接收到的压力场描述为

\[\boldsymbol{P}=a \boldsymbol{H S}+\boldsymbol{N}　　(2) \]

式中，$\boldsymbol{P}=\left[P\left(r_{s}, z_{s}, z_{1}\right), \ldots, P\left(r_{s}, z_{s}, z_{K}\right)\right]^{T}, \boldsymbol{H}=\left[H_{1}, \ldots, H_{M}\right]$，$\boldsymbol{S}=\left[S_{1}, \ldots, S_{M}\right]^{T}, \boldsymbol{N}=\left[N\left(z_{1}\right), \ldots, N\left(z_{K}\right)\right]^{T}$，上标$(\cdot)^{T}$表示转置运算，$\boldsymbol{S}$和$Sm=b\left[\Psi_{m}\left(z_{s}\right) / \sqrt{k_{m} r_{s}}\right] e^{j k_{m} r_{s}}$表示源激发的各种模态振幅函数，$\boldsymbol{H}$是列为$H_{m}=\left[\Psi_{m}\left(z_{1}\right), \ldots, \Psi_{m}\left(z_{K}\right)\right]^{T}$的复矩阵，其中$\Psi_{m}\left(z_{k}\right)$是样本,在传感器深度$z_{k}$处，作为深度变量Sturm-Liouville边值问题的解出现的第m模态特征函数。

III MFP定位

　　本节回顾了传统的宽带MFP方法。MFP的基本思想是将阵列接收到的未知位置的源的实验场与搜索网格中每个测试点源生成的模型副本相关联。当测试点源与未知源处于同一位置时，相关性最大。在这项研究中，KRAKEN被用来生成复制品。
　　利用Bartlett处理方法，宽带信号的MFP估计器的输出可以表示为

\[\begin{aligned} &\boldsymbol{B}(r, z) \\ &=\frac{1}{F} \sum_{i=1}^{F} \frac{\left|\sum_{k=1}^{K} P^{e *}\left(f_{i}, r_{s}, z_{s}, z_{k}\right) P^{c}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\right|^{2}}{\left[\sum_{k=1}^{K}\left|P^{e}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\right|^{2}\right]\left[\sum_{k=1}^{K}\left|P^{c}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\right|^{2}\right]} \end{aligned}　　(3) \]

其中$f$表示频率，$P^{e}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)$为第k个传感器接收到的实验压力场，$P^{c}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)$为模拟的压力场，$i$为频率指标，F表示频率窗口的个数，上标$(\cdot)^{*}$表示复共轭。对于MFP，提供了环境参数来计算副本。高分辨率处理器需要对环境有高度精确的了解。

IV 基于功能的定位

　　首先提出的基于DNN的定位方法是一种基于特征的定位方法，它包括两个模块:(1)特征提取模块和(2)DNN分析模块。特征提取模块从观测到的声学数据中提取特征向量。DNN分析模块构建特征向量与源位置$\left(r_{s}, z_{s}\right)$的一对一映射。特征提取和DNN分析是相互独立的。本文方法的框图如图1(a)所示，其中第$t$个时间步长处的输入信号记为$\mathbf{p}_{t} \in \mathbb{R}^{K \times A}$.

A.特征提取

　　通过快速傅里叶变换(FFT)将信号变换到频域。D快照上单个频率处的协方差矩阵表示为

\[\boldsymbol{R}(f)=\frac{1}{D} \sum_{d=1}^{D} \boldsymbol{P}_{d}(f) \boldsymbol{P}_{d}^{+}(f)　　(4) \]

其中$(\cdot)^{+}$表示厄米特转置。假设噪声信号与源信号无关，将式(2)代入式(4)可以进一步描述为

\[ \boldsymbol{R}(f)=\operatorname{var}(a) \boldsymbol{H} \boldsymbol{R}_{S}(f) \boldsymbol{H}^{+}+\boldsymbol{R}_{N}(f)　　(5) \]

其中，$\boldsymbol{R}_{S}(f)=\boldsymbol{S}(f) \boldsymbol{S}^{+}(f) \quad$、$\quad \boldsymbol{R}_{N}(f)=\boldsymbol{N}(f) \boldsymbol{N}^{+}(f)$，协方差矩阵可以分为两个正交子空间：模态信号空间和噪声空间。

将特征值分解 (EVD) 应用于$\boldsymbol{R}(f) $，我们可以得到

\[ \boldsymbol{R}(f)=\boldsymbol{\Lambda}_{f} \boldsymbol{\Sigma}_{f} \boldsymbol{\Lambda}_{f}^{+}　　(6) \]

其中，$\boldsymbol{\Lambda}_{f}=\left[\mathbf{e}_{f, 1}, \ldots, \mathbf{e}_{f, K}\right] \in \mathbb{C}^{K \times K}\left(\left\|\mathbf{e}_{f, k}\right\|=1\right)$ 是特征向量矩阵，$\Sigma_{f}=\operatorname{diag}\left[\lambda_{1}, \ldots, \lambda_{K}\right], \lambda_{1} \geq \lambda_{2} \geq \cdots \geq \lambda_{K}$是由特征值组成的对角矩阵。我们定义两个对角矩阵$\Sigma_{f}^{S}=\operatorname{diag}\left[\lambda_{1}, \ldots, \lambda_{M^{\prime}}\right]$和$\Sigma_{f}^{N}=\operatorname{diag}\left[\lambda_{M^{\prime}+1}, \ldots, \lambda_{K}\right]$，其中$\Sigma_{f}^{S}$是对应于较大特征值的对角矩阵（模态信号空间）并且$\Sigma_{f}^{N}$对应于较小的特征值（噪声空间），$\lambda_{M^{\prime}} \gg \lambda_{M^{\prime}+1}$。因此，公式（6）可以改写为

\[ \boldsymbol{R}(f)=\boldsymbol{\Lambda}_{f}^{S} \boldsymbol{\Sigma}_{f}^{S} \boldsymbol{\Lambda}_{f}^{S+}+\boldsymbol{\Lambda}_{f}^{N} \boldsymbol{\Sigma}_{f}^{N} \boldsymbol{\Lambda}_{f}^{N+}　　(7) \]

　　比较式(5)与式(7)，如果模式被充分采样，协方差矩阵的 $M$ 个主要特征向量跨越与$\boldsymbol{\ H }$ 的列相同的空间。与较大特征值相关的特征向量跨越模态信号空间，而其余特征向量跨越噪声空间。请注意，模态信号空间的特征向量可能与最低阶正常模态不完全对应（$M^{\prime} \leq M$，如果某些模态幅度函数未激活）。如图1（a）所示，我们提取与模态信号空间相关的特征向量用于以下过程，$\boldsymbol{\Lambda}_{f_{i}}^{S}=\left[\mathbf{e}_{f_{i}, 1}, \ldots, \mathbf{e}_{f_{i}, M^{\prime}}\right] \in \mathbb{C}^{K \times M^{\prime}}, i=1，…，F$。以噪声为主的子空间被忽略以抑制噪声。由于提取的特征向量是复数值，它们不能被实值神经网络直接处理。这里，复数值被认为是二维实数值。特征向量的实部和虚部连接为大小为$2 \times K \times F \times M^{\prime}$ 的输入向量$\boldsymbol{x}$

\[ \mathbf{x} \triangleq \bigcup_{i}\left[\mathcal{R}\left(\boldsymbol{\Lambda}_{f_{i}}^{S}\right), \Im\left(\boldsymbol{\Lambda}_{f_{i}}^{S}\right)\right], \quad i=1, \ldots, F　　(8) \]

图1 (a) 基于特征的方法框图。具有相同颜色的每对连续 TDNN 层的连接共享相同的权重矩阵。 (b) TDNN 层之间的基本连接。

B. 神经网络的架构和学习

　　由于源的移动，我们将源定位作为回归任务（而不是分类任务）以实现所需的学习行为。对于分类器，如果分类器类别密集，则数据可能太稀疏而无法学习。如果类别划分稀疏，则定位精度将丢失。

　　对于源定位任务，源的当前位置被认为与其相邻位置有关。由于 TDNN具有利用长期时间依赖性的优点，因此它是构建特征向量和特征向量之间的回归变换的理想模型源位置。TDNN 层之间的基本连接如图 1(b) 所示，其中第 $l$层和第 t 时间步的输入向量表示为$\mathbf{x}_{l, t}=\left\{x_{l, t, 1}, \ldots, x_{l, t, U_{1}}\right\}$,并且第$(l + 1)$层和第 $t$ 个时间步的输出向量表示为$\mathbf{x}_{l+1, t}=\left\{x_{l+1, t, 1}, \ldots, x_{l+1, t, U_{l+1}}\right\}$。每个 TDNN 单元的输出是通过计算其输入的加权和并将该和传递给激活函数来获得的。引入延迟集$\Gamma_{l}=\left\{\tau_{1}, \ldots, \tau_{T_{l}}\right\}$来描述从第$l$层到第$(l + 1)$层的投影，

\[ \mathbf{x}_{l+1, t}=f_{l}\left(\sum_{\tau \in \Gamma_{l}} \mathbf{W}_{l, \tau} \mathbf{x}_{l, t+\tau}+\mathbf{b}_{l}\right)　　(9) \]

其中，$\mathbf{W}_{l, \tau} \in \mathbb{R}^{U_{l+1} \times U_{l}}$表示与输入相关的权重矩阵$\mathbf{x}_{l, t+\tau}$,$\mathbf{b}_{l} \in \mathbb{R}^{U_{l+1}}$表示偏置矩阵，$f_{l}(\cdot)$ 是激活函数。应该提到的是$\tau_{1}, \ldots, \tau_{T_{l}}$是离散整数。如果$\tau<0$，则拼接过去的帧，如果$\tau>0$，则拼接未来的帧。权重矩阵$\left\{\mathbf{W}_{l, \tau}, \tau \in \Gamma_{l}\right\}$和偏置矩阵$\mathbf{b}_{l}$是不随时间移位的，通常称为权重共享。权重共享技术可以压缩模型大小。

　　我们的 TDNN 的配置是具有 1024 个隐藏单元的八层（一个输入层 + 六个隐藏层 + 一个输出层），如图 1（a）所示，其中每对连续层的权重矩阵与相同的颜色共享相同的值（即权重共享）。时间上下文信息由每个 TDNN 单元收集，高层有能力学习更广泛的时间关系。跨层的依赖关系在时间上是本地化的。在我们的 TDNN 中，从 $t-1$ 到 $t+1$ 的帧在输入层和第二个隐藏层（即$\Gamma_{0}=\Gamma_{2}=\{-1,0,1\}$ 和$\Gamma_{1}=\Gamma_{3}=\cdots=\Gamma_{6}=\{0\}$）拼接。就整个框架而言，第 $t$ 个时间步的输出取决于 $t-2$ 到 $t+2$ 帧（共五帧）。

　　给定初始输入向量 $\left\{\mathbf{x}_{0, t+\tau}, \tau \in \Gamma_{0}\right\}$，第 $L$ 层（我们的 TDNN 中的 $L = 7$）的最终输出可以递归地描述为 $l = 0,…, L–1$。权重和偏置矩阵是通过有监督的 DNN 训练获得的。对于回归任务，我们的目标是最小化网络输出$\left(r_{v},z_{v}\right)$（单位为千米和米）与参考$\left(r_{v}^{\prime}, z_{v}^{\prime}\right)$之间的均方误差 (MSE)，由下式给出

\[ E=\frac{1}{V} \sum_{v=1}^{V}\left[\left(r_{v}-r_{v}^{\prime}\right)^{2}+\left(z_{v}-z_{v}^{\prime}\right)^{2}\right]　　(10) \]

　　MSE目标函数在 $V$ 个样本的小批量模式中使用带有随机梯度下降 (SGD) 的反向传播 (BP) 算法进行优化。

V 基于波形的定位

　　二是基于波形的定位方法。在这种方法中，没有预先设计任何特征。非线性变换直接从多通道时域信号到源位置构建。基于波形的定位方法的网络架构如图 2 所示。第一层由多通道 CNN 组成，其余的是 FNN 块。

图2 CNN-FNN 架构概述。

　　多通道 CNN 被设计为提取源空间信息的滤波器组。每个 CNN 块中有$C$个内核。每个卷积核都被实现为一个时域滤波器$\mathbf{h}_{k}^{c}$。每个通道的 A 个样本$\left\{\mathbf{p}_{1}, \ldots, \mathbf{p}_{K}\right\}$的原始波形与长度为 B, $\left\{\mathbf{h}_{1}^{1}, \ldots, \mathbf{h}_{1}^{C}, \ldots, \mathbf{h}_{K}^{1}, \ldots, \mathbf{h}_{K}^{C}\right\}$的滤波器进行卷积。第 $k$ 个 CNN 块中第 $c$ 个内核的输出表示为

\[ \boldsymbol{\xi}_{k}^{c}=\mathbf{p}_{k} * \mathbf{h}_{k}^{c}　　(11) \]

其中 $*$表示卷积操作，并且$\xi_{k}^{c} \in \mathbb{R}^{A-B+1}$。第 $k$ 个 CNN 块的输出表示为 $C$ 个输出的串联，

\[ \Xi_{k} \triangleq \bigcup_{c}\left\{\xi_{k}^{c}\right\}, \quad c=1, \ldots, C　　(12) \]

其中，$\Xi_{k} \in \mathbb{R}(A-B+1) C$。FNN 的输入是 $K$ 个 CNN 块输出的总和，由下式给出

\[ \mathbf{r}=\sum_{k=1}^{K} \Xi_{k}　　(13) \]

其中，$\mathbf{r} \in \mathbb{R}^{(A-B+1) C}$。

　　在我们的 CNN-FNN 配置中，第一个卷积层包含 30 个 CNN 块，每个块有 10 个大小为$1 \times 16$（即 K = 30、C = 10 和 B = 16）。剩余的 FNN 块包括 6 个具有 1024 个单元的隐藏层和一个具有两个单元的输出层。四千九十六个时域点作为CNN-FNN的输入向量（即A = 4096），所以FNN块的输入维度为40 810$[$10 \times (4096–16 + 1)]$。 TDNN 和 CNN-FNN 的配置（例如，隐藏层数、隐藏单元数和内核大小等）是根据经验选择的。整个 CNN-FNN 网络是联合优化的。滤波器参数和 FNN 权重都是通过最小化 MSE 目标函数来更新的。 (10)采用BP算法。过滤器是随机初始化的。过滤器是随机初始化的。由于网络可能涉及特征表示和模型构建，因此基于波形的方法适用于训练数据和测试数据匹配的情况。然而，基于特征的方法可以应用于一些数据不匹配的情况，只要用于特征提取的频率窗口保持不变。

VI 评估

A 仿真设置

1 声学环境模型

　　进行了模拟以评估所提出方法的性能。模拟环境的示意图如图 3 所示。VLA 由 30 个水听器组成，深度为 30-60 m，传感器间的均匀间距为 1 m。水深和沉积层深度分别为 100 和 10 m。随着向上折射，声速从水柱顶部的 1527 m/s 增加到底部的 1529 m/s。沉积物和海底的声速分别为1700和1900 m/s，衰减系数为0.7 dB/k。水体密度为 1.0 g/cm3，沉积层和底层的密度为 1.78 g/cm3。

图3 模拟声环境模型示意图。

2 数据说明

　　仿真信号带宽为[50, 1000] Hz，采样率为6000 Hz。这些源包括近水面船只和水下目标，源电平 (SL) 为 120 dB（1000 Hz 时）。所有源都远离阵列，范围从 10 到 28.5 km，而深度为 1.5 到 8.5 m 的近水面船只和水下目标从 28 到 35 m。对于每个源，范围在不断变化，而深度是固定的。将白噪声添加到源信号中以模拟源信号。 SL 和噪声级 (NL) 均衰减 -6 dB/Oct。单个水听器在不同范围内的信噪比 (SNR) 可以通过 SL 和 NL 近似计算为

\[ \begin{aligned} \mathrm{SNR}(f)(\mathrm{dB})=& \mathrm{SL}(f)-60 \\ &-10 \log _{10}\left(\frac{r}{r_{0}}\right)-\mathrm{NL}(f) \end{aligned}　　(14) \]

3 特征提取参数

　　帧长为 0.6827 s，用于特征提取的带宽设置为 [100, 300] Hz（增量为 12 Hz）。提取了 16 个频率区间的 10 个特征向量作为输入特征$（M^{\prime}=10, F=16）$，因此每帧的特征包括 $9600（2 \times 30 \times 16 \times 10）$维（参见第 IV A 节）。

4 DNN 训练的参数

　　将 174 万个样本的模拟数据分为两部分：90% 的训练集和 10% 的测试集。在 DNN 训练期间，将 10% 的训练集用作诊断的验证集。

　　整流线性单元 (ReLU)，$f(x)=\max (0, x)$被用作激活函数。Kaldi工具包被用于 DNN 训练。初始学习率为 0.001，SGD 的批次为 512。

5 MFP 参数

　　Sec. III中描述的传统 MFP被作为竞争方法。计算模拟场的网格分辨率选择为10 m范围和0.5 m深度，搜索网格设置相同。使用了 8192 点 FFT。用于计算估计器输出的带宽也设置为 [100, 300] Hz（增量为 12 Hz），并且使用 16 个频率来计算式(3)中的 MFP 估计器的输出。由于TDNN在每次估计中使用了五帧特征，为了公平起见，MFP的最终输出是每五帧平均的。模糊度表面的全局最大值表明了对源位置的最佳估计。

B 仿真结果

　　使用的客观评价指标是估计值和参考值之间的平均绝对误差（MAE）和平均相对误差（MRE），

\[ \mathrm{MAE}=\frac{1}{Q} \sum_{q=1}^{Q}\left|x_{q}-x_{q}^{\prime}\right|　　(15) \]

\[ \mathrm{MRE}=\frac{1}{Q} \sum_{q=1}^{Q}\left|\frac{x_{q}-x_{q}^{\prime}}{x_{q}^{\prime}}\right| \times 100 \%　　(16) \]

其中 $x$ 代表估计值，$x^{\prime}$代表参考值。 $Q$ 是样本数。

1 各种NLs下的表现

　　第一次模拟研究了所提出的方法在各种 NL 下的鲁棒性。 NL 设置为 25、45 和 65 dB（在 1000 Hz 时）。当 NL = 25 dB 时，单个水听器的 SNR 间隔为 20 至 25 dB，当 NL = 45 dB 时为 0 dB 至 5 dB，当 NL = 65 dB 时为 20 dB 至 15 dB。共有三个模型，分别使用 NL = 25、45 和 65 dB 下的训练数据进行训练，然后将不同 NL 下的测试样本通过针对重合 NL 训练的相应模型进行解码。例如，NL= 25 dB 下的测试样本由 NL =25 dB 训练的模型解码。训练和测试环境之间没有不匹配。表 1总结了三种方法的每个 NL 下所有测试样本的距离和深度的 MAE 和距离的 MRE（在括号中）。基于波形的方法的估计结果每 5 次估计平均，因为在每个估计中，基于特征的方法和 MFP 都考虑了五帧。如表 1 所示，我们可以发现，两种提出的方法的 MAE 和 MRE 在所有条件下都始终保持低误差。当 NL 增加时，性能会下降。这表明，对于基于特征的方法，特征向量可能会受到环境噪声的干扰，因此特征不能很好地代表源的传播模式。对于 MFP，总体而言，MFP 可以在有利的实验条件下准确估计声源的深度和范围。然而，当 SNR 变低时，MFP 的性能会严重下降，例如 NL= 65 dB。

表1 基于特征的方法、基于波形的方法和 MFP 的 MAE 和 MRE 比较。

　　给出了基于特征方法的源范围和深度估计图作为主观评估的例子。图 4 显示了测试源的估计轨迹，其中绘制了深度为 5 m 的近水面船只和深度为 32.5 m 的水下目标。相应的 MAE 在图中进行了说明。基本上，所提出的方法足够准确，可以对源位置进行可靠的估计。此外，距离估计与真实距离的分布如图 5 所示，其中显示了每个源的 MAE 和 MRE。在理想情况下，离散点应该严格分布在对角线上（红色实线）。然而，由于环境干扰，这些点偏离了真实值。对于大多数测试用例，估计的一般趋势是正确的，并且由于更高的 SNR，在近距离表现出更好的准确性。比较图4和图5中的子图（a）与（d）[或（b）与（e），（c）与（f）]，我们可能会注意到水下目标的性能优于近处-水面舰船在相同的NL下略有不同，其原因认为传输损耗随着深度的增加而减小，因此在更深的深度发现更高的SNR。

图4 在 NL= 25 dB（SNR 从 20 到 25 dB）、45 dB（SNR 从 0 到 5 dB）和 65 dB（SNR 从 20 到 15 dB）下测试源的估计轨迹基于特征的方法。 (a)、(b) 和 (c) 震源深度为 5 m 的近地表船舶； (d)、(e) 和 (f) 水下目标，源深度为 32.5 m。

图5 基于特征的方法在各种 NL 下测试集的范围估计。 (a)、(b) 和 (c) 震源深度为 5 m 的近地表船舶； (d)、(e) 和 (f) 水下目标，源深度为 32.5 m。

　　最后，两种方法的训练集和验证集的平均 MSE 如图 6 所示。可以看出，所提出的算法收敛到真实值。但收敛时验证误差大于训练误差，这意味着训练的模型对训练数据过拟合。在训练阶段使用“交叉验证”结合“提前停止”来防止过拟合。

图6 (a)-(c) 基于特征的方法和(d)-(f) 基于波形的方法的 MSE 与迭代次数。

　　从上面的模拟中，我们发现基于特征的方法在所有条件下都达到了最好的精度，并且当 NL = 65 dB 时，两种方法的性能都优于 MFP。这表明基于 DNN 的方法在低信噪比环境下更加鲁棒。考虑到基于特征的方法比基于波形的方法具有更好的性能，为简单起见，使用基于特征的方法进行以下实验。

2 不匹配环境下的测试

　　几项研究调查了环境参数变化对源定位性能的影响。深度和范围估计已被证明对水深的不匹配很敏感。然而，之前的不匹配研究仅用于 MFP 和匹配模式。在本节中，我们研究了水深不匹配对所提出的基于 DNN 的方法的影响。

　　由于海浪和潮汐变化，水深不匹配是一个常见问题。当测试集的水深与训练集不同时，我们研究了所提出的方法。以水深95~105m的水深6m的水源作为测试集，训练集的水深为100m。 NL =45 dB 设置为训练和测试集相同。我们只是在这里研究了源测距，因为在之前的研究中，深度已被证明比相应的范围相对不敏感。测试水深的范围估计的散点图为 105 m 和 95 m 绘制在图 7 中，其中绿色虚线是估计的线性拟合曲线。 95~105 m水深估计值的线性拟合曲线如图8所示。此外，通过直方图分析，将99 m和101 m测试水深的相对范围误差分布绘制在图9中，其中当水深偏离$\mp 1 \%$时，相对距离误差集中在$\Delta r / r=\pm 2 \%$ 处。直方图通过汉宁窗进行平滑处理。从图7-9可以看出（1）如果模型数据中水深被高估/低估，估计的范围会比实际更远/更近； (2) 相对距离误差约为相对水深误差的两倍，这与先前研究中的结论一致。这些物理结果表明 DNN 在声场模式上进行学习。

图7 使用基于特征的方法进行范围估计，用于在100m水深中训练的 (a) 105 m 和 (b) 95 m。

图8 测试水深在 95 和 105 m 之间的范围估计的线性拟合曲线。该模型在 100 m 水深中进行训练。拟合方程显示在括号中。

图9 范围估计的相对误差的直方图分析。测试水深为 (a) 101 m 和 (b) 99 m。

　　随后，引入了 MST 来解决由于环境变化导致的性能下降问题。结合水深95、99、100、101、105m的数据，训练出通用模型。水深为105和95 m的定位结果如图10所示。与图7相比，定位结果的偏差一般可以使用MST进行修正。建议在存在不同环境的情况下训练通用模型。

图10 在 95、99、100、101 和 105 m 水深（使用 MST 的通用模型）中训练的 (a) 105 m 和 (b) 95 m 使用基于特征的方法进行范围估计。

3 计算效率

　　计算效率通过基本操作 [包括实值乘法$(\times)$和加法 $(+)$] 和估计样本位置所花费的平均 CPU 时间（秒）来评估。模型生成的基本操作和 CPU 时间（即 MFP 的副本计算和基于 DNN 的方法的网络训练）未计算在内。我们将服务器上所有算法的计算负载与两个 Intel Xeon E5-2640v3 CPU 进行了比较，每个 CPU 有 8 个内核。处理器基频为 2.60 GHz。每种方法都使用单线程实现。基于特征的方法、基于波形的方法和 MFP 的基本操作是$\left[4.59 \times 10^{7}(\times)\right.$; $\left.3.69 \times 10^{6}(+)\right]$,$\left[6.66 \times 10^{7}(\times), 1.84 \times 10^{7}(+)\right]$和$\left[5.70 \times 10^{8}(\times), 5.65 \times 10^{8}(+)\right]$。它们的 CPU 时间分别为 0.066、0.106 和 0.337 s。基于特征的方法实现了最高的计算效率，而 MFP 是三种方法中效率最低的。

C 实验结果

　　经过多次模拟，1999年3月在黄海采集的真实环境数据用于测试。数据由 VLA 记录，该 VLA 具有 16 个元素的水听器，深度为 0.5-30.5 m，传感器间距为 2 m。近水面舰艇从距传感器近12公里处向传感器行进，历时14.5分钟。图 11 显示了实验中测量的 SSP，其中水深为 35.5 m。水听器采样率为 12 kHz。 FFT 使用了 8192 个点。特征提取和 MFP 的带宽设置为 [100, 150] Hz（增量为 1.5 Hz）。

图11 用于实验环境的 SSP。

　　对于 DNN 方法，由于我们没有足够的数据记录在与训练集相同的环境中，因此将数据模拟为训练数据，而将实验数据用作测试集。由于 NL 未知，因此生成了各种 NL 下的模拟数据以覆盖真实情况。训练集包括 1 107 000 个样本，这些样本都是通过模拟获得的。训练数据的范围是 4 到 15 公里。由于只有范围随时间变化，范围估计如图12所示，其中训练数据的水深设置为35.5 m。从这个图中，我们可以观察到基于 DNN 的方法和 MFP 都可以准确地定位源。估计距离和 GPS 距离之间的 MAE 和 MRE 总结在表 1 中，结果表明所提出的方法比 MFP 实现了更好的精度。如果在同一环境中有更多的实验数据进行训练，则基于 DNN 的方法可能会取得更好的性能。

图12 使用实验数据进行源测距。 (a) 基于特征的方法的结果和 (b) MFP 的结果。两种方法的水深均设置为 35.5 m。

　　随后，我们将水深设置为 36 m 用于计算 MFP 的建模场，而深度 35.5 和 36 m 的模拟数据用于 MST。结果如图 13 所示。可以看出，如果水深被高估，MFP 可能会高估水源位置。尽管如此，基于 DNN 的方法仍然可以通过在各种条件下获取数据进行训练来跟踪 GPS 范围。结合VI B 2，结果表明环境变化下的定位精度可以受益于MST。

图13 使用实验数据进行源测距。 (a) 基于特征的方法在水深 35.5 和 36 m 的模拟数据中训练的结果。 (b) 水深 36 m 的 MFP 的结果。

　　从这个实验中，结果表明，当训练数据不足时，模拟数据是有帮助的。在模拟数据上训练的模型也可以在实验数据上取得相当好的性能，这使得 DNN 可用于实验数据收集通常成本高昂的实际应用。

VII 结论

　　本文介绍了两种基于 DNN 的浅水环境源定位方法。基于特征的方法是一个两阶段的框架，包括特征提取和 DNN 分析。基于波形的方法在第一时间从原始波形估计源范围和深度。从实验来看，基本上，两种提出的方法可以在有利的环境下精确地估计源位置，并在中等水平的 NL 或不匹配的环境下给出可靠的估计。但是，在更恶劣的环境下，性能会有所下降。基于特征的方法比基于波形的方法和传统的多功能一体机取得了更好的性能。结果证明了所提出方法的效率和潜力。

　　总之，我们的贡献有四方面：（i）DNN 已应用于浅水环境中的源定位任务。由于 DNN 是一种从数据中学习模式的数据驱动技术，因此它是强大的影响海洋。 (ii) 我们试图直接从时域信号中定位源，而不设计任何手动特征，并获得了有希望的结果。 (iii) 我们研究了数据不匹配对基于 DNN 的源定位方法性能的影响，并将结果与之前的研究进行了比较。发现该结论与先前关于源定位的数据不匹配的研究一致。 (iv) 当真实环境训练数据不足或存在环境变化时，将 MST 引入源定位任务。可以结合近距离环境中的仿真数据训练出一个通用模型，这有助于在缺乏足够实验数据的情况下进行实际应用。他们促进 DNN 适用于环境特征的精确先验信息很少的情况。

　　这项研究表明 DNN 是一种有吸引力的源定位方法。我们未来的工作主要包括（1）提高低信噪比或非高斯噪声环境下的鲁棒性和（2）扩展基于 DNN 的方法用于多源定位任务。

致谢

　　这项工作得到了国家自然科学基金（No.11590770）和中国科学院创新基金（No.CXQZ201701）的部分支持。作者要感谢副主编 Stan E. Dosso 和匿名审稿人为提高论文质量提出的宝贵意见和建议。

参考文献

[1]A. Tolstoy, Matched Field Processing for Underwater Acoustics (World Scientific, Singapore, 1993).
[2]H. P. Bucker, “Use of calculated sound fields and matched field detection to locate sound source in shallow water,” J. Acoust. Soc. Am. 59(2), 368–373 (1976).
[3]H. Schmidt, A. B. Baggeroer, W. A. Kuperman, and E. K. Scheer, “Environmentally tolerant beamforming for high resolution matched field processing: Deterministic mismatch,” J. Acoust. Soc. Am. 88(4), 1851–1862 (1990).
[4]G. R. Wilson, R. A. Koch, and P. J. Vidmar, “Matched mode localization,” J. Acoust. Soc. Am. 84(1), 310–320 (1988).
[5]E. K. Westwood, “Broadband matched-field source localization,” J. Acoust. Soc. Am. 91(5), 2777–2789 (1992).
[6]A. B. Baggeroer, W. A. Kuperman, and P. N. Mikhalevsky, “An overview of matched field methods in ocean acoustics,” IEEE J. Ocean. Eng. 18(4), 401–424 (1993).
[7]G. B. Smith, C. Feuillade, D. R. Del Balzo, and C. L. Byrne, “A nonlinear matched field processor for detection and localization of a quiet source in a noisy shallow-water environment,” J. Acoust. Soc. Am. 85(3), 1158–1166 (1989).
[8]Z.-H. Michalopoulou and M. B. Porter, “Matched-field processing for broad-band source localization,” IEEE J. Ocean. Eng. 21(4), 384–392 (1996).
[9]M. B. Porter, R. Dicus, and R. Fizell, “Simulation of matched-field processing in a deep-water Pacific environment,” IEEE J. Ocean. Eng. 12(1), 173–181 (1987).
[10]R. Zhang, Z. Li, J. Yan, Z. Peng, and F. Li, “Broad-band matched-field source localization in the East China Sea,” IEEE J. Ocean. Eng. 29(4), 1049–1054 (2004).
[11]A. M. Thode, W. A. Kuperman, G. L. D’Spain, and W. S. Hodgkiss, “Matched-field processing using Bartlett sidelobe interference structures,” J. Acoust. Soc. Am. 107(1), 278–286 (2000).
[12]S. E. Dosso and M. J. Wilmut, “Maximum-likelihood and other processors for incoherent and coherent matched-field localization,” J. Acoust. Soc. Am. 132(4), 2273–2285 (2012).
[13]Y. L. Gall, S. E. Dosso, F. Socheleau, and J. Bonnel, “Bayesian source localization with uncertain Green’s function in an uncertain shallow water ocean,” J. Acoust. Soc. Am. 139(3), 993–1004 (2016).
[14]A. M. Thode, “Source ranging with minimal environmental information using a virtual receiver and waveguide invariant theory,” J. Acoust. Soc. Am. 108(4), 1582–1594 (2000).
[15]C. Cho, H. C. Song, and W. S. Hodgkiss, “Robust source-range estimation using the array/waveguide invariant and a vertical array,” J. Acoust. Soc. Am. 139(1), 63–69 (2016).
[16]H. C. Song and C. Cho, “Array invariant-based source localization in shallow water using a sparse vertical array,” J. Acoust. Soc. Am. 141(1),183–188 (2017).
[17]K.-C. Lee, J.-S. Ou, and M.-C. Huang, “Underwater acoustic localization by principal components analyses based probabilistic approach,” Appl. Acoust. 70(9), 1168–1174 (2009).
[18]S.-C. Chan, K.-C. Lee, T.-N. Lin, and M.-C. Fang, “Underwater positioning by kernel principal component analysis based probabilistic approach,” Appl. Acoust. 74(10), 1153–1159 (2013).
[19]R. Lefort, G. Real, and A. Dremeau, “Direct regressions for underwater acoustic source localization in fluctuating oceans,” Appl. Acoust. 116, 303–310 (2017).
[20]H. Niu, E. Reeves, and P. Gerstoft, “Source localization in an ocean waveguide using supervised machine learning,” J. Acoust. Soc. Am. 142(3), 1176–1188 (2017).
[21]H. Niu, E. Ozanich, and P. Gerstoft, “Ship localization in Santa Barbara Channel using machine learning classifiers,” J. Acoust. Soc. Am. 142(5),EL455–EL460 (2017).
[22]E. L. Ferguson, R. Ramakrishnan, S. B. Williams, and C. T. Jin, “Convolutional neural networks for passive monitoring of a shallow water environment using a single sensor,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 2657–2661 (2017).
[23]G. E. Hinton, S. Osindero, and Y. W. Teh, “A fast learning algorithm for deep belief nets,” Neural Comput. 18(7), 1527–1554 (2006).
[24]J. Schmidhuber, “Deep learning in neural networks: An overview,” Neural Networks 61, 85–117 (2015).
[25]G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed, N. Jaitly, A.Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath, and B. Kingsbury,“Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups,” IEEE Signal Proc. Mag.29(6), 82–97 (2012).
[26]L. Deng, J. Li, J.-T. Huang, K. Yao, D. Yu, F. Seide, M. Seltzer, G. Zweig, X. He, X. He, J. Williams, Y. Gong, and A. Acero “Recent advances in deep learning for speech research at Microsoft,” in Proc. IEEE Int.
Conf. Acoust., Speech, Signal Process., pp. 8604–8608 (2013).
[27]Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process. 23(1), 7–19 (2015).
[28]A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” Commun. ACM 60, 84–90 (2017).
[29]Y. Goldberg, “A primer on neural network models for natural language processing,” J. Artif. Intell. Res. 57, 345–420 (2016).
[30]C. Chen, A. Seff, A. Kornhauser, and J. Xiao, “Deepdriving: Learning affordance for direct perception in autonomous driving,” in Proceedings of the IEEE International Conference on Computer Vision, pp. 2722–2730 (2015).
[31]J. Devlin, R. Zbib, Z. Q. Huang, T. Lamar, R. Schwartz, and J. Makhoul,“Fast and robust neural network joint models for statistical machine translation,” in Meeting of the Association for Computational Linguistics,pp. 1370–1380 (2014).
[32]D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M.Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever,T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis, “Mastering the game of Go with deep neural networks and tree search,” Nature 529(7587), 484–489 (2016).
[33]A. Esteva, B. Kuprel, R. A. Novoa, J. Ko, S. M. Swetter, H. M. Blau, and S. Thrun, “Dermatologist-level classification of skin cancer with deep neural networks,” Nature 542(7639), 115–118 (2017).
[34]A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang,“Phoneme recognition using time-delay neural networks,” IEEE Trans.Acoust., Speech, Signal Process. 37(3), 328–339 (1989).
[35]R. P. Lippmann, E. A. Martin, and D. P. Paul, “Multi-style training for robust isolated-word speech recognition,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 12, 709–712 (1987).
[36]F. B. Jensen, W. A. Kuperman, M. B. Porter, and H. Schmidt, Computational Ocean Acoustics (AIP Press, Melville, NY, 2000), Chap. 5.
[37]C. L. Byrne, R. T. Brent, C. Feuillade, and D. R. DelBalzo, “A stable data-adaptive method for matched-field array processing in acoustic waveguides,” J. Acoust. Soc. Am. 87(6), 2493–2502 (1990).
[38]I. Stakgold, Green’s Functions and Boundary Value Problems (Wiley, NewYork, 1979).
[39]Y. le Cun, “Generalization and network design strategies,” in Connectionism in Perspective (Elsevier, New York, 1989), pp. 143–155.
[40]D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning representations by back-propagating errors,” Nature 323(6088), 533–536 (1986).
[41]D. Povey, X. Zhang, and S. Khudanpur, “Parallel training of DNNs with natural gradient and parameter averaging,” in International Conference on Learning Representations: Workshop Track (2015).
[42]P. C. George and A. Paulraj, “Optimising the active sonar system design,” Def. Sci. J. 35(3), 295–311 (1985).
[43]X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” Proc. 14th Int. Conf. Artif. Intell. Stat. (AISTATS) 15,315–323 (2011).
[44]D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M.Hannemann, P. Motlicek, Y. M. Qian, P. Schwarz, J. Silovsky, G. Stemmer,and K. Vesely “The Kaldi speech recognition toolkit,” in IEEE ASRU(2011).
[45]C. Feuillade, D. R. Del Balzo, and M. M. Rowe, “Environmental mismatch in shallow-water matched-field processing: Geoacoustic parameter variability,” J. Acoust. Soc. Am. 85(6), 2354–2364 (1989).
[46]D. R. Del Balzo, B. C. Feuilladea, and M. M. Rowe, “Effects of waterdepth mismatch on matched-field localization in shallow water,”J. Acoust. Soc. Am. 83(6), 2180–2185 (1988).
[47]E. C. Shang and Y. Y. Wang, “Environmental mismatching effects on source localization processing in mode space,” J. Acoust. Soc. Am. 89(5),2285–2290 (1991).

posted @ 2022-03-27 14:32 建人类命运共同体阅读(275) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

建人类命运共同体