A Real-time Implementation of a Stereophonic Acoustic Echo Canceler 立体声声学回声消除器的实时实现
摘要
电话会议系统采用声学回声消除器来减少由扬声器和麦克风之间的耦合产生的回声。为了增强声音的真实感,需要双声道音频。然而,立体声回声消除 (SAEC) 更难以解决,因为必须唯一地识别两个声学路径,这成为问题,因为两个激励信号高度相关。本文介绍了一种宽带立体声声学回声消除器。描述了立体声回声消除的基本困难,并提出了一种基于快速递归最小二乘(FRLS)算法的子带结构中的等频带回声消除器。该结构已用于实时实现,并进行了实验。在本文中,研究了该实现在具有 8 kHz 带宽的现实生活记录中的仿真结果。结果清楚地验证了SAEC的理论基本问题也适用于现实生活情况。他们还表明,低频区域比高频区域需要更复杂的自适应算法。
1 简介
在电话会议和桌面会议等会议系统中,需要声学回声消除器 (AEC) 来减少扬声器和麦克风之间的声学耦合导致的回声。 AEC 识别回波路径,同时通过自适应滤波减少回波。如果会议系统在每个方向都有双音频通道,经典的单声道 AEC 将无法提供足够的回声抑制,因此需要更复杂的立体声声学回声消除器 (SAECR)。在本文中,我们将展示立体声回声消除 (SAEC) 的基本问题、可能的解决方案,并提出一种已被证明在实时实现中表现良好的结构。
在立体声会议系统中,空间音频信息也被传输。听者不仅会获得更真实的声音,而且听者还能够在听觉上定位另一端的扬声器。研究表明,这可以改善感知,尤其是当多个说话者的语音重叠时 [1]。然而,现在有四个声学回声路径需要识别,每个麦克风两个,图 1。这不仅会增加计算复杂性,而且会导致解决方案的一个新的基本问题,正如我们将看到的。
四个单声道 AEC,直接在立体声中实现,不仅要跟踪接收室和传输室中不断变化的回声路径!例如,如果一个讲话者停止讲话而另一个讲话者在传输室的不同位置开始讲话,则消除器必须重新收敛。没有自适应算法可以足够快地跟踪这种变化,因此该方案导致回波抑制效果不佳。因此,单声道 AEC 在立体声情况下的推广不会产生令人满意的性能。
解释 SAEC 问题的理论最早是在一篇早期论文[2] [3]、[4]中描述的。根本问题是两个通道通常携带线性相关的信号,这反过来又使自适应算法求解的正交方程变得奇异。这意味着方程没有唯一解,而是有无数个解,并且可以证明所有(除了物理上真实的)解都取决于传输室。在[4]中还表明,非唯一性问题的唯一解决方案是减少来自传输室的立体声信号之间的相关性,并且为此目的还给出了一种有效的低复杂度方法。
最近,人们注意力集中在研究降低通道之间的互相关以获得良好的回波路径估计的其他方法,[5]、[6]、[7]、[8] .主要问题是如何在不影响立体声感知和音质的情况下充分降低相关性。
尽管上述方法可以提高 SAECR 寻找真解的能力,但要求解的正交方程仍然是病态的。已知标准归一化最小均方 (NLMS) 自适应算法在这些情况下收敛缓慢。在 SAECR 中,受高条件数影响较小的更复杂的算法(例如仿射投影算法 (APA) 或递归最小二乘法 (RLS))是首选。每个 AEC 的四个自适应滤波器和复杂的自适应算法的组合导致高计算复杂性,从而需要子带结构。
下面,我们将解释 SAECR 的基本问题和可能的解决方案。我们将提出一种高性能的 SAECR 结构,该结构已在实时实施中得到验证。最后,我们将使用建议的结构展示和讨论真实记录的结果。
2 立体声回声消除的问题及解决方法
在立体声声学回声消除中,两个麦克风和两个扬声器之间有四个独立的传输路径,见图 1。所有四个回声路径的脉冲响应都需要由回声消除器估计。通常,两个传输室信号 x1(n) 和 x2(n) 源自同一源,因此高度相关。因此,很难估计冲击响应 h_(1,N) (n) 和 h_(2,N) (n)。在 [4] 中彻底分析了收敛到 SAECR 的真实回波路径的情况。
下面给出了减少通道之间相关性的问题表述和方法总结。
2.1 问题表述
假设传输室麦克风信号由下式给出,见图 1,

其中,s(n)为传输室内的源信号,g_i (n),i=1,2 为长度为M的传输室回波路径。符号“*”表示卷积。 为简单起见,我们将只研究从接收室到传输室的一条返回路径,但类似的评论将适用于另一条路径。 在 EC 之后,该通道的残余回波 e(n) 为
h_(i,N) ,i = 1,2 是接收室长度为 N 的真实响应,并且h ̂_(i,N) ,i = 1,2 是长度为 L 的估计响应。符号 H表示Hermitian 转置算子。加权最小二乘准则的最小化
求解线性方程组 [9] 得到结果
其中, ryx (n)估计的互相关向量,Rxx(n) 估计的相关矩阵。
立体声回声消除的挑战性问题在于该矩阵的条件数。 如果我们将失调定义为
其中,
得到以下结论[4]:
其中公式(12) 中的后两个陈述要求 Rxx(n) 不是单数。方程(12) 在麦克风信号 y(n) 中没有添加噪声的情况下有效,见图 1。
如文献[4] 和公式(12) 中所述,发送和接收房间中脉冲响应的尾部起着关键作用。由于传输室中的脉冲响应尾部,我们可以获得正规方程的唯一解。然而,由于接收室中的脉冲响应拖尾,我们可能会有很大的偏差。我们当然假设 L < M 和 L < N ,因为这是要处理的实际情况。理论上,M 和 N 是无限长的,但办公室的正常混响时间约为 0.3s。
有两种方法可以减少失调。第一种方法是使用更长的自适应滤波器,但相应地,自适应算法在收敛速度方面变得非常慢,并且在内存、算术复杂度等方面实现起来更加昂贵。此外,该解决方案不是鲁棒,因为它是病态且对传输室的变化很敏感。第二种方法,实用方法,是对两个输入信号进行部分(或全部)去相关。困难在于在不降低信号质量的情况下对信号进行去相关。
2.2 去相关方法
降低两个通道之间相关性的最直接的方法可能是向每个通道添加独立的随机噪声,x_i ,i = 1,2。这在文献[3] 中有所描述,但也指出在为了充分降低相关性,噪声水平必须大于最大不可感知噪声的水平。
为了减少感知到的失真,如果去相关信号与原始信号相似,将是优选的。但是SAEC中的核心问题是两个通道是线性相关的,即添加一个与原始信号线性相关的信号不会降低两个通道之间的相关性。在文献[4]中,建议将非线性处理的源信号添加到源信号本身。文中发现在原始信号中添加一个简单和低复杂度的半波整流信号,去相关性表现良好。这可以表示为,
其中α决定了增加的失真量。发现α取值在0.3-0.5,可显着降低了信道相关性,并且在办公环境中几乎听不到失真 [10]。立体感不受影响。
在传输室和接收室之间的传输路径包括音频编解码器的系统中,某些编码器将使通道去相关。在文献[5]中,分析了感知音频编码器 MPEG 层 III [11] 对 SAECR 的影响。结果表明,编码器可以对信号进行去相关,因为不可感知的量化噪声被添加到源信号中。编码器对信号去相关的效率取决于用于压缩的特征。例如,高级立体声编码器通常以联合立体声模式运行,其中两个相关通道被联合编码。这实际上可以增加通道之间的相关性,如果编码器还被用作去相关器,则不应使用它。
当源信号包含音乐时,传统的感知音频编码器在给定的压缩比下比语音编码器实现更好的音频质量,而语音编码器在纯语音信号上表现更好。为了结合这两个部分中最好的部分,已经提出了根据源信号软切换模式的编码器。示例中还显示了这样一种编码器 MTPC 编码器 [12] 的去相关属性。
3 立体声声学回声消除器的建议结构
在本节中,将介绍实时实施的 SAECR 的所有重要部分。首先,需要一个去相关器来降低两个传输室信号 x1(n) 和 x2(n) 之间的相关性。 在系统中,我们选择使用上一节中介绍的半波整流器。
即使在去相关器之后,找到正确的回波路径仍然不是一个好解决的问题。 因此,自适应滤波器选择了两通道 RLS 算法,这种算法在 SAEC 应用 [13] 中显示出巨大前景。该算法具有非常快的收敛速度,即使对于相关矩阵的特征值扩展较大的信号也是如此。 RLS 算法的两个主要缺点是对于语音等非平稳信号的高计算复杂度和稳定性问题。 通过监控 RLS 算法的状态来提高稳定性,并在参数变得不稳定时重新初始化参数。双路径结构[14]用于进一步减少不稳定性对算法的影响。 这种结构也可用作双方通话检测器。 由于计算复杂度高,自适应滤波器在子带结构中执行,如图 2 所示。
3.1 快速递归最小二乘自适应算法
对 FRLS 算法的完整分析超出了本文的范围。RLS 算法的一般分析可以在 [9] 中找到,稳定的双通道版本在 [13]、[15] 中描述。 尽管如此,下面给出了实现中使用的双通道 FRLS 的特定版本的定义。
从图 1 必须定义以下变量:
其中 L 表示自适应滤波器的长度,h1,1(n)表示通道1的系数编号1,h2,1(n)表示通道2的系数编号1等。注意滤波器的通道和状态向量 x(n) 在该算法中是交错的。 完整的两通道 FRLS 自适应滤波器在表 1 中给出,其中使用了以下数量:
在这个版本中,稳定性靠稳定性参数 k 得到了提高。但对于非平稳信号(如语音信号)的操作,需要进一步增强。首先,通过监控ϕ,可以检测算法是否即将变得不稳定。如果是这种情况,则将预测部分中的参数重置为其开始值,而自适应滤波器估计值 h ̂ 可以保持不变。合适的初始A(n)、B(n) 和 G(n) 的值为 0,而能量估计 E_A (n) 和E_B (n)可以用语音能量的递归估计来初始化。在重新启动和算法重新收敛之间的这段时间内,回声消除可能很差。接下来介绍的双路径结构可以提高这些情况下的性能。
3.2 两路自适应滤波器
在大干扰的情况下,例如双向通话,或者如果自适应滤波器变得不稳定,滤波器可能会偏离良好的估计。如果估计发散,最好使用较早的滤波器估计,直到自适应滤波器重新收敛。这就是双路径自适应滤波器结构 [14] 的目的,如图 3 所示。
在这种结构中,自适应滤波器仅用于估计脉冲响应 h ̂_RLS。然后必须确定这个新估计是否比以前的估计(表示为h ̂)更好,如果新估计更好,则更新h ̂。回声消除器的输出信号 e(n) 在双路径结构中使用h ̂计算。应该注意的是在实现中,在子带中采用双路径结构,并且一个子带中做出的决定与所有其他子带中的状态无关。
滤波器更新要满足的最关键条件是自适应滤波器中的短时残余回波能量 EeRLS,i 小于双路径结构Eei与固定值C < 1相乘
其中,i ∈ {1, 2}表示通道序号。
3.3 子带滤波器组设计
使用子带方案的主要原因是降低计算复杂度,其他积极影响包括提高自适应滤波器的稳定性,因为每个子带中适应的抽头更少,并且结构允许在并行系统上有效实施。每个子带中相关矩阵的条件数也减少了,从而提高了 LMS 类自适应滤波器的收敛速度。两个最大的缺点是引入的传输路径延迟,如表 2 所示,以及由于下采样可能导致的混叠。在 [16] 中已经表明,如果使用临界下采样,即,如果我们有与子带数量 M 相同的下采样率 r,则混叠将显着降低自适应滤波器的性能。因此,非关键下采样,即 r < M,同时选择具有良好阻带衰减的滤波器。关于滤波器组的一般讨论可以在许多书籍和文章中找到 [17]、[18]、[19]、[20],但由于重点是关键下采样滤波器组,因此具有非关键下采样的有效结构是见附录。还讨论了如何设计原型滤波器的方法。
3.4 计算复杂度
在本节中,我们计算每个全频带采样周期的自适应滤波器和滤波器组所需的实值乘法和加法的数量。滤波器组中的傅里叶变换和自适应滤波器 (FRLS) 的大部分是用复数算法执行的。在此分析中,两个复数之间的乘法算作四次实数乘法和两次实数加法。
二通道 FRLS [13] 所需的实值乘法次数为 32L,加法次数为 32L,其中 L 是自适应滤波器的长度。这包括计算两个通道的残余信号。子带信号是复数值的,表1给出了两通道FRLS的复数版本。该算法需要128Lsub实值乘法和1128Lsub实数加法,其中Lsub表示自适应滤波器在子带中的长度。前几节中描述的子带结构中的回声消除需要 M/2+1 自适应滤波器,附录 A,但由于下采样,它们更新率是全带速率的 1/r 倍。自适应滤波器的长度为 Lsub=L/r+Cnc,其中 Cnc 补偿非因果抽头 [21]。每个全频带样本的实数乘法总数为 128 (M/2+1)/r Lsub,加法数为 128 (M/2+1)/r Lsub。
分析滤波器组(公式(29)) 和合成滤波器组(公式(38) )包括两部分,多相滤波和快速傅里叶变换。多相滤波对每个滤波器组使用 K 次乘法和 K 次加法,其中 K 是原型滤波器的长度。由于分析滤波器组中傅里叶变换的输入信号是实值的,而合成滤波器组中傅里叶变换的输出信号也是实值的,因此四个分析滤波器组只需要两个傅里叶变换,两个合成滤波器组需要一个傅里叶变换。为了将一个复值傅里叶变换分离为两个实值变换,需要额外的 2M-4 加法[22]。如果傅里叶变换是用基数 2 结构,它们每个需要 2M 〖log〗_2 M - 7M + 12 次实数乘法和 3M 〖log〗_2 M-3M+4 加法 [22]。滤波器组需要全频带更新速率的 1/r倍更新。四个分析滤波器组的乘法总数为 1/r (4K + 4M 〖log〗_2 2M - 14M + 24),加法总数为 1/r (4K + 6M 〖log〗_2 M - 2M)。在合成滤波器组中,需要额外添加 K 个加法来更新每个滤波器组中的状态向量,如公式(38)。两个合成滤波器组的乘法总数为 1/r (2K + 2M 〖log〗_2 M - 7M+12),加法次数为 1/r (4K + 3M 〖log〗_2 M - M)。在表 2 中,给出了不同数量的子带的复杂性示例。考虑了三种系统配置:所有子带中使用双通道 FRLS,所有子带中使用 NLMS,最后,一半子带中使用 FRLS,以及另一半中使用 NLMS。
4 仿真
为了以受控方式验证系统,并验证去相关立体声信号的必要性,对 HuMaNet 房间 B [23] 中记录的数据进行了仿真。 首先仿真传输室的记录,在这次录音中,激励信号是在消声室中记录的高质量语音信号。使用了两个扬声器(代表不同位置的两个扬声器)以便在传输室中产生空间变化的信号。 此外,使用上面的传输室信号作为激励信号,记录接收室的信号。 以 16 kHz 的采样率记录信号,平均 SNR(回声噪声比)约为 40 dB,即非常低的背景噪声水平。 在本节的模拟中,回声消除器具有以下设置。
如第 2.1 节所示,当图 1 中的两个输入信号 x1 和 x2 线性相关时,回声消除器问题有无数个解。 幅度相干函数,
是衡量两个信号相关程度的指标 [4],其中 γ( f )= 1 表明这两个信号彼此完全线性相关。 也就是说,SAECR 将难以在幅度相干函数接近 1 的频率区域内收敛到正确的解。 在图 4 中,显示如上所述记录的语音信号的幅度相干性函数。功率谱估计值Sxi x j ,是使用 Welch 方法 [24] 计算的,记录的信号的采样率是16 kHz,信号加 8196点汉宁窗。在估计中,使用了 30 秒长的信号。图 4(a) 显示了未经处理的左右声道之间的传输室语音记录的幅度相干性。可以通过对信号进行预处理来减少通道之间的相关性。在图 4(b)中,显示了用半波整流器(第 2.2 节)预处理的信号的幅度相干性,α 为 0.5。也可以通过使用编码器和解码器 [5] 来对信号进行去相关。在图 4(c) 中,幅度相干函数显示了已由 MPEG 第三层编码器 [11]、[25] 编码/解码的信号,最后在图 4(d) 中显示了使用 MTPC 编码器的结果[12]。两个编码器分别以每通道 32 kbit/s 对左右通道进行编码。
显示去相关有效性的一种方法是研究回声消除器的性能在传输室扬声器的位置变化后如何降低。使用残差的归一化均方误差 (MSE) 能量作为性能指标。 MSE 由下式给出,
其中 w 表示接收室背景噪声信号,LPF 表示低通滤波器;在这种情况下,它在 0.999 处有一个实极点。〖 P〗_(y-w) 是类似计算的。在所有的例子中,除了双方对话的例子,背景噪声信号w是未知的,并且不能根据(21)减去。这将在一定程度上增加 MSE。示例中使用的激励信号如图 5 所示。左声道显示在右声道上方。在此信号中,扬声器在 5.1 秒时从靠近左侧麦克风的位置移动到靠近右侧麦克风的位置。图 6(a) 所示为未经过半波整流器处理的信号的回波消除产生的 MSE。尤其注意到在 5.1 秒的瞬时传输室扬声器位置变化后 MSE 的急剧增加。在图 6(b)中,显示了相同激励信号但使用半波整流器 α=0.5 处理的均方误差。在这些条件下,SAECR 向真解收敛,因此对传输室内的回波路径变化不太敏感。因此,MSE 几乎不受传输室扬声器位置变化的影响(5.1 秒)。模拟显示了图 4(c,d)中使用的编码/解码信号与使用半波整流器α=0.5处理的信号类似的行为。这表明幅度相干函数是衡量相关矩阵 Rxx (n) (8) 如何影响 SAECR 性能的有效度量。
在图 7 中,MSE 作为子带数量的函数显示了两个时间实例,在传输室扬声器改变位置之前(实线)和之后(虚线)。 在图 7(a)中,未处理的信号被用作回声消除器的输入,显示 MSE 在较低的子带增加。这对应于通道高度相关的区域,比较图 4(a)。在图 7(b)中,使用了用半波整流器α=0.5处理的信号。由于在这种情况下通道的相关性较低,因此传输室扬声器改变位置之前和之后的 MSE 只有很小的差异。图 7 还表明,在实际情况下,信道去相关在低频区域比在高频区域更重要。
其他模拟表明,当传输室中发出背景噪声源(在我们的例子中是来自个人计算机的风扇噪声)时,通道之间的相关性会降低。自适应滤波器的收敛性得到了改善,尤其是在高频区域。尽管如此,在正常的办公环境中仍然需要信道去相关,尤其是在低频区域。
在前面的示例中,双通道 FRLS 算法用于所有子带。为了降低计算复杂度,可以在不显着降低回声消除器性能的情况下,在较高的子带切换到NLMS算法。在图 8 中,显示了 FRLS 和 NLMS 算法的 MSE 性能,用于一个典型的较低子带和一个典型的较高子带。 FRLS 算法令人印象深刻的性能增益仅适用于较低的子带。图 9 显示了在较低子带中具有 FRLS 和在较高子带中具有 NLMS 的系统的性能。
最后,显示了双方对话的情况。与前面的图相比,接收室是模拟的,使用 4096 个抽头长的房间脉冲响应。这是为了能够在计算 MSE 之前去除双方通话信号,(20)。信号采用半波整流器α=0.5进行处理,所有子带均采用双通道FRLS 算法。结果如图 10 所示。
5 总结
通过本文提出的立体声回声消除器的实时实施,我们已经能够确认使用两个通道显着增强了在视频会议系统中将说话者们进行听觉分离的能力。因此,当同样位于传输室,但在其他位置的其他说话者同时讲话时,接收室中的收听者具有提高区分传输室中的一个说话者的能力。
还已经证实,去相关对于系统的稳定性至关重要,无论是在实时实验中,还是在上一节中介绍的真实记录信号的离线模拟中。研究还证实,如果没有去相关器,回声消除器不太可能收敛到正确的解,在较低的子频带中尤其如此,并且在传输室背景噪声较低的情况下尤其如此。最后表明,双通道FRLS自适应算法在低频段优于NLMS算法,但在高频段性能增益较小。
RLS 算法因其稳定性问题而臭名昭著。然而,通过本文提出的稳定性增强和适当的初始化,可以以受控方式使用该算法,并且显示出非常快的收敛速度。即使跟踪/重新收敛比初始收敛稍慢,参见图 10。双方通话情况会严重降低自适应滤波器的性能。在系统中,双路径结构处理这些情况。它还可以解决重新启动 FRLS 时出现的问题。重新启动对于FRLS 的稳定是必要的,例如,在处理 24 小时真实数据的模拟中,每个子带平均每 18 秒重新启动一次。
实时系统还包括处理自适应滤波器后的残余回波抑制的装置,见图2。抑制器由三部分组成。第一个是基于传输室的短时能量的抑制器,它随着传输室中语音能量的增加而增加抑制。第二个抑制器,基于回波路径增益的抑制器 [26],可以被视为一种温和的中心削波形式,如果残余回波非常强,则不受影响,但当它低于阈值时,它会被衰减与残余回波信号大致成比例的量。最后,舒适噪声被添加到残余回波信号中。没有舒适噪声,听者可能会因两个抑制器抑制的快速变化而烦恼。
子带结构以多种方式增强系统,包括降低计算复杂度,如本文所示。另一个重要的优势是能够在并行处理单元上运行自适应算法。在实时系统中,分析和合成滤波器组在一个 DSP 上处理,而自适应滤波器分布在多个 DSP 上。更加具体的,如图 3 中的自适应滤波器 hˆRLS ,而图 3 中的滤波 hˆ 是在还执行滤波器组 [27] 的 DSP 上执行。这样,并行结构不会引入额外的信号路径延迟,参见附录 E。由于固有的传输信号延迟是子带结构的明显缺点,因此这一点很重要。表 2 给出了滤波器组引入的延迟示例。
最后,作者想评论本文中使用的模拟数据。已经在几种不同的情况下进行了模拟。在论文中选择使用具有相当高 SNR(40 dB)的数据。这是因为背景噪声会使通道去相关,从而减少“立体声”问题。也就是说,随着 SNR 的降低,融合系统的 MSE 将增加,但由于传输室说话者位置变化导致的 MSE 增加(图 6(a))将不那么明显。
附录 省略
References
J. Benesty, D. R. Morgan, J. Hall, and M. M. Sondhi, “Synthesized stereo com- bined with acoustic echo cancellation for desktop conferencing,” Bell Labs Tech. J., vol. 3, no. 3, pp. 148–158, July-Sept. 1998.
M. M. Sondhi and D. R. Morgan, “Acoustic echo cancellation for stereophonic teleconferencing,” in IEEE ASSP Workshop on Applications of Signal Processing to Audio Acoustics, 1991.
M. M. Sondhi, D. R. Morgan, and J. L. Hall, “Stereophonic acoustic echo can- cellation — An overview of the fundamental problem,” IEEE Signal Processing Lett., vol. 2, no. 8, pp. 148–151, Aug. 1995.
J. Benesty, D. R. Morgan, and M. M. Sondhi, “A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancel- lation,” IEEE Trans. Speech Audio Processing, vol. 6, no. 2, pp. 156–165, Mar. 1998.
T. Ga¨nsler and P. Eneroth, “Influence of audio coding on stereophonic acoustic echo cancellation,” in Proc. IEEE ICASSP, 1998, pp. 3649–3652.
A. Gilloire and V. Turbin, “Using auditory properties to improve the behavior of stereophonic acoustic echo cancellers,” in Proc. IEEE ICASSP, 1998, pp. 3681–3684.
S. Shimauchi, Y. Haneda, S. Makino, and Y Kaneda, “New configuration for a stereo echo canceller with nonlinear pre-processing,” in Proc. IEEE ICASSP, 1998, pp. 3685–3688.
M. Ali, “Stereophonic echo cancellation system using time-varying all-pass fil- tering for signal decorrelation,” in Proc. IEEE ICASSP, 1998, pp. 3689–3692.
S. Haykin, Adaptive Filter Theory, Prentice Hall International, 1996.
D. R. Morgan, J. L. Hall, and J. Benesty, “Investigation of several types of non- linearities for use in stereo acoustic echo cancellation,” IEEE Trans. on Speech Audio Processing, submitted.
B. G. Haskell, A. Puri, and A. N. Netravali, Digital Video: An Introduction to MPEG-2, chapter 4, pp. 55–79, Digital Multimedia Standards Series. Chapman & Hall, 1997.
S. A. Ramprashad, “A multimode transform predictive coder (MTPC) for speech and audio,” in IEEE Speech Coding Workshop, June 1999.
J. Benesty, F. Amand, A. Gilloire, and Y. Grenier, “Adaptive filtering algorithms for stereophonic acoustic echo cancellation,” in Proc. IEEE ICASSP, 1995, pp. 3099–3102.
K. Ochiai, T. Araseki, and T. Ogihara, “Echo cancellation with two path models,”
IEEE Trans. on Commun., vol. COM-25, no. 6, pp. 589–595, June 1977.
M. G. Bellanger, Adaptive Digital Filters and Signal Analysis, Marcel Dekker, 1987.
A. Gilloire and M. Vetterli, “Adaptive filtering in subbands with critical sam- pling: Analysis, experiments, and application to acoustic echo cancellation,” IEEE Trans. on Signal Processing, vol. 40, no. 8, pp. 1862–1875, Aug. 1992.
M. Vetterli and J. Kovacˇevic´, Wavelets and Subband Coding, Prentice Hall PTR, 1995.
G. Strang and T. Nguyen, Wavelet and Filter Banks, Wellesley-Cambridge Press, 1996.
P. P. Vaidyanathan, Multirate Systems and Filter Banks, Prentice Hall PTR, 1993.
N. J. Fliege, Multirate Digital Signal Processing, John Wiley & Sons, 1994.
W. Kellermann, “Analysis and design of multirate systems for cancellation of acoustical echoes,” in Proc. of ICASSP, 1988, pp. 2570–2573.
H. Sorensen, D. Jones, M. Heideman, and S. Burrus, “Real-values fast Fourier transform algorithms,” IEEE Trans. on Acoust., Speech, Signal Processing, vol. ASSP-35, no. 6, pp. 849–863, June 1987.
D. A. Berkley and J. L. Flanagan, “HuMaNet: an experimental human-machine communications network based on ISDN wideband audio,” AT&T Tech. J., vol. 69, pp. 87–99, Sept./Oct. 1990.
P. D. Welch, “The use of fast Fourier transform for the estimation of power spectra: A method based on time averaging over short, modified periodograms.,” IEEE Trans. on Audio and Electroacoustics, vol. 15, pp. 70–73, June 1967.
Fraunhofer IIS, “MPEG-1 LAYER III shareware audio coder,” 1995, Am Weichselgarten 3 D-91058 Erlangen Germany, encoder and decoder code: http://www.iis.fhg.de/amm/techinf/layer3/index.html, Public domain decoder source code (ANSI c): ftp://ftp.fhg.de/pub/iis/layer3/public c/.
E. J. Diethorn, “An algorithm for subband echo suppression in speech commu- nications,” Private Communication, 1998.
P. Eneroth, S. L. Gay, T. Ga¨nsler, and J. Benesty, “An implementation of a stereophonic acoustic echo canceler on a general purpose DSP,” in Proc. IC- SPAT, 1999.
T. F. Coleman and Y. Li, “A reflective newton method for minimizing a quadratic function subject to bounds on some of the variables,” SIAM J. on Optimization, vol. 6, no. 4, pp. 1040–1058, 1996.
R. Boite and H. Leich, “A new procedure for the design of high order minimum phase FIR digital or CCD filters,” Signal Processing, pp. 101–108, 1981.
G. Wackersreuther, “On the design of filters for ideal QMF and polyphase filter banks,” AEU¨ , vol. 39, no. 2, pp. 123–130, 1985.
Texas Instruments, TMS320C4x General-Purpose Applications User’s Guide, chapter 6, pp. 56–86, Texas Instruments, Mar. 1996.
浙公网安备 33010602011771号