Wav2Vec 2.0 Part1(人工智能)的应用
的应用 Wav2Vec 2.0 Part1(人工智能)

1.针对 SE &R 2022 挑战的特定领域 Wav2vec 2.0 微调 (arXiv)
作者 : Alef Iury Siqueira Ferreira , 古斯塔沃·杜斯·雷斯·奥利维拉
抽象的 : 本文介绍了我们为共享任务自动语音识别构建强大的 ASR 模型的努力,该模型用于葡萄牙语中的自发和准备语音和语音情感识别 (SE&R 2022)。挑战的目标是推进葡萄牙语的 ASR 研究,考虑不同方言的准备和自发演讲。我们的方法包括在特定领域的方法中微调 ASR 模型,应用增益归一化和选择性噪声插入。所提出的方法改进了在可用的 4 个轨道中的 3 个的测试集上提供的强基线
2. 面向自动歌词转录的 wav2vec 2.0 迁移学习( arXiv )
作者 : Longshen Ou , Xiangming Gu , Ye Wang
抽象的 : 近年来,由于大规模数据集和自我监督学习 (SSL) 方法的范式,自动语音识别 (ASR) 取得了显着进展。然而,作为其在歌唱领域的对应问题,自动歌词转录(ALT)受到数据有限和演唱歌词可懂度下降的困扰,导致其发展速度较慢。为了填补 ALT 和 ASR 之间的性能差距,我们尝试利用语音和唱歌之间的相似性。在这项工作中,我们提出了一种基于迁移学习的 ALT 解决方案,该解决方案通过将 SSL ASR 模型 wav2vec 2.0 应用于唱歌领域来利用这些相似性。我们通过探索不同迁移起点的影响来最大化迁移学习的有效性。我们通过将原始 CTC 模型扩展到混合 CTC/注意模型来进一步提高性能。我们的方法在各种 ALT 基准数据集上大大超过了以前的方法。进一步的实验表明,即使训练数据的比例很小,我们的方法仍然可以达到竞争性能。
3. 使用随机 wav2vec 2.0 减少按需计算 ( arXiv )
作者 : 阿波夫维亚斯 , Wei-Ning Hsu , 迈克尔·奥利 , 阿列克谢·巴耶夫斯基
抽象的 : Squeeze and Efficient Wav2vec (SEW) 是最近提出的一种架构,可将输入压缩到 Transformer 编码器,以使用 wav2vec 2.0 (W2V2) 模型计算高效的预训练和推理。在这项工作中,我们提出了随机压缩以减少 W2V2 模型的按需计算。与使用固定的挤压因子相反,我们在训练期间对其进行均匀采样。我们进一步介绍了查询和键值池机制,这些机制可以应用于每个转换器层以进行进一步压缩。我们在 960 小时 Librispeech 数据集上预训练并在 10 小时转录数据上进行微调的模型的结果表明,使用相同的随机模型,我们可以在单词错误率 (WER) 和推理时间之间进行平滑的权衡,而只有边际 WER 退化与针对特定设置训练的 W2V2 和 SEW 模型相比。我们进一步表明,我们可以将相同的随机预训练模型微调到特定配置,以恢复 WER 差异,从而从头开始显着节省预训练模型的计算量
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

浙公网安备 33010602011771号