乔佛里大帝 - 博客园

2022年10月13日

LSTM TIME AND FREQUENCY RECURRENCE FOR AUTOMATIC SPEECH RECOGNITION

摘要： 1 摘要长短期记忆（LSTM）递归神经网络（RNN）最近显示出比深层前馈神经网络（DNN）有明显的性能改进。这些模型的一个关键方面是使用时间递归，并与改善梯度消失问题的门控结构相结合。受人类光谱图阅读的启发，在本文中我们提出了对LSTM的扩展，在频率和时间上进行递归。该模型首先扫描频带以生成频谱信阅读全文

posted @ 2022-10-13 19:22 乔佛里大帝阅读(159) 评论(0) 推荐(0)

2022年9月5日

连接服务器tips

摘要：服务器：10.41.48.207 10.41.16.212 现阶段tensorflow环境用的CUDA为10.1.243，cudnn7.6.5，tensorflow2.3.0 现阶段环境pytorch环境用的CUDA为10.2.89，cudnn7.6.5，pytorch1.10.1，torchvis 阅读全文

posted @ 2022-09-05 15:08 乔佛里大帝阅读(76) 评论(0) 推荐(0)

2022年8月24日

On Adjusting the Learning Rate in Frequency Domain Echo Cancellation With Double-Talk

摘要：摘要回声消除的主要困难之一是学习率需要根据双方通话和回声路径变化等条件而变化。在本文中，我们提出了一种改变频域回声消除器学习率的新方法。该方法基于推导 NLMS 算法在存在噪声的情况下的最优学习率。该方法与多延迟块频域 (MDF) 自适应滤波器一起评估。我们证明它比当前的双方对话检测技术表现更好，阅读全文

posted @ 2022-08-24 14:27 乔佛里大帝阅读(217) 评论(0) 推荐(0)

2022年8月15日

回声消除的评价准则

摘要：（1）回声返回损耗增益回声返回损耗增益（Echo Return Loss Enhancement，ERLE）是回声消除特有的评价准则，它表示回声信号$d(n)$与残留回声信号$e(n)$的比值，值越高性能越好。表达式为 $$\mathrm{ERLE}=10 \log _{10}\left\{\fr 阅读全文

posted @ 2022-08-15 15:00 乔佛里大帝阅读(3161) 评论(0) 推荐(0)

2022年8月10日

语音数据集：OPEN-SOURCE ANECHOIC INTERFERER DATASET

摘要：在本文中提出了一个新的数据集，该数据集包含家庭环境中遇到的各种声源的消声记录。作为数据集的补充，我们提供了一个 Python 库，用于从消声记录中生成多通道、随机混合语音。此外，可以生成具有用户定义的频谱斜率的调制噪声信号，其中时间包络是根据消声噪声记录计算的。生成的数据可用于在具有挑战性的声学环境阅读全文

posted @ 2022-08-10 11:07 乔佛里大帝阅读(296) 评论(0) 推荐(0)

2022年8月8日

自适应步长算法

摘要： Variable Step-Size NLMS Algorithm for Under-Modeling Acoustic Echo Cancellation 介绍声学回声消除（AEC）是自适应滤波最流行的应用之一。自适应滤波器的作用是识别终端扬声器和麦克风之间的声学回声路径，即房间声学脉冲响阅读全文

posted @ 2022-08-08 17:53 乔佛里大帝阅读(1064) 评论(0) 推荐(0)

joffrey

公告