语音技术前沿:自我监督学习与新型表征的探索

二十年前——远在深度学习革命之前——某中心学者、以色列理工学院电气与计算机工程系副教授 Yossi Keshet 就已经在研究自动语音识别问题。

“当时业界的重点是小型自动语音识别和封闭词汇语音识别,例如用于连接数字识别的系统,比如‘Call 26784’,”Keshet 说。“我们听到的是孤立发音的数字‘26784’,但它们实际上是连在一起发音的。”

如今,许多性能最佳的人工智能模型都使用深度学习,数百万用户依赖手机上的语音助手或转录软件将语音转换为文本。但这并不意味着语音识别问题已经解决。

“我们仍然存在差距,尤其是在有混响的房间、病理语音、带口音的语音以及所有世界语言中,”Keshet 说。“有时,作为人类,我们只能基于上下文理解语音,因为我们在大脑高层有某种纠错机制。语音识别系统仍然不具备这种能力。这很吸引人,因为它与通信理论和信息论等其他领域相关。”

Keshet 特别指出了语音相关研究中最近势头强劲的两大趋势。

“第一个是无监督/自我监督机制,”他说。“这意味着系统本身为自己提供更多数据,进行自我训练、自我适应等。”

“另一个主题与表征相关,但它是一种新的表征。我们过去有一种基于信号处理和对人类听觉机制理解的表征,即梅尔频谱。但事实证明,可以构建不假设信号特定结构的表征,它们对于自动语音识别和语音合成都更有效。最有效的表征基于自我监督学习,其中未标记的输入定义了一个可以生成伪标记训练数据的辅助任务。这些数据可以使用监督技术来训练模型。”

Keshet 解释说,这种表示声学数据的新方法,其灵感来源于自然语言处理领域中BERT模型取得的成功。如今,通常使用相对少量的标注数据来微调预训练的语言模型(如BERT),从而构建NLP模型。BERT编码了整个语言的词序列概率,它是在无监督的方式下训练的,这意味着不需要对训练数据进行标注。相反,训练数据句子中的单词会被随机掩码,模型学习预测缺失的单词。

“类似地,在语音中,许多自我监督学习算法基于训练深度学习模型来区分后续样本和随机未来样本,”Keshet 解释道。“这个概念背后的基本原理是,后续样本比随机未来样本更有可能属于同一个音素类别。”

“我可以举一个我学术研究小组在说话人日志方面工作的例子,即识别谁在何时说话。你得到一段语音流,你需要说出,‘这是A。这是B。这是A。这是C。’”

“因此,在这项工作中,我们假设接下来的10毫秒应该是同一个说话人,接下来的100毫秒也是。下一秒呢?谁知道?但至少在接下来的500毫秒内,应该是同一个说话人。你也可以用音素分割来做”——将原始声学信号的片段与最小的语音单位音素进行匹配。

“另一种自我监督学习的概念叫做巴洛孪生网络,”Keshet 说。“你有两个与同一说话人、音素、文本等相关的信号。你训练一个网络,让它们在表征空间中接近,而其他一切则不那么接近。”

“这具有革命性,因为如果你想为像希伯来语这样小众的语言做语音识别,你可以做到。你只需要语音。这是我们以前从未有过的。它使我们能够扩展到没有庞大语料库的语言。”

然而,有时,任何类型的数据——无论是标注的还是未标注的——就是不够。Keshet 表示,处理这些情况是语音相关技术的另一个前沿开放领域。

“让我举个例子,”他说。“听播客时,有时你想让语速变快或变慢。这效果非常差。所以我的小组决定解决这个问题。”

“问题在于,我们没有你以1.2倍、1.33倍、0.8倍语速说话的数据。即使我们有你说话更快或更慢的录音,我们也不知道哪段对应哪种速度。”

“我们做了第一个关于深度学习架构来解决这个问题的工作。并且数据不是以监督方式使用的。我们让它变快,然后返回比较两个信号,再让它变慢并比较那些。我们做不同类型的比较。”

“这些类似于对比损失。对比损失函数有三个要素。我们将当前帧与其他两个要素进行比较。一个是正的,一个是负的。损失函数会说,好吧,取网络的所有参数,让正样本接近,负样本远离。”

“这是一种利用无监督数据使事物不同的方式。质量非常出色。达到了演播室的质量。”

因此,在开始研究语音相关技术二十年之后,Keshet 的热情依然未减。

“我情不自禁,”他说。“我对人类语音感到兴奋,这是我们已知的最平凡却又最复杂的信号之一。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-02 08:04  CodeShare  阅读(0)  评论(0)    收藏  举报