对话实时翻译技术解析
对话实时翻译技术解析
并行语音识别器、语言识别和针对对话语音优化的翻译模型是实现实时翻译的关键改进。
今天,某中心推出了新的对话实时翻译功能,允许使用两种不同语言的个人进行对话,系统充当翻译器,实时转换双方对话内容。
启动该功能后,客户可请求系统为特定语言对开启翻译会话。会话开始后,用户可使用任一语言说话。系统将自动识别正在使用的语言并翻译每轮对话。
初始版本支持六组语言对——英语与西班牙语、法语、德语、意大利语、巴西葡萄牙语或印地语——适用于区域设置为美国英语的智能设备。
技术架构
实时翻译功能整合了多个现有系统,包括:
- 自动语音识别系统
- 机器翻译服务
- 文本转语音系统
整体架构和机器学习模型专门为对话语音翻译进行了设计和优化。
语言识别
在翻译会话期间,系统并行运行两个语音识别模型,同时配备独立的语言识别模型。输入语音同时传递至两个语音识别模型,但根据语言识别模型的分类结果,仅将其中一个语音识别模型的输出发送至翻译引擎。
这种并行实现对于保持翻译请求的低延迟至关重要。若等待语言识别模型返回结果后再开始语音识别,将会延迟翻译音频的播放。
研究发现,语言识别模型在同时基于语音信号的声学信息和两个语音识别模型的输出时表现最佳。语音识别数据在非母语使用者场景中尤其有用,因为这些使用者的语音通常具有一致的声学特性,无论所说的是何种语言。
语音识别
与大多数语音识别系统一样,实时翻译使用的系统包含声学模型和语言模型:
- 声学模型将音频转换为音素(最小的语音单位)
- 语言模型编码特定词串的概率,帮助语音识别系统在相同音素序列的不同解释间做出选择
每个用于实时翻译的语音识别系统都包含两种语言模型:
- 传统语言模型:编码相对较短词串(通常约四个词)的概率
- 神经语言模型:能够处理更长范围的依赖关系
与传统语音识别模型相比,实时翻译的语言模型经过训练,能够处理更广泛的对话主题和更口语化的语音。
模型训练细节
在声学模型训练中,采用了连接主义时间分类方法,随后进行多轮状态级最小贝叶斯风险训练。为增强声学模型的鲁棒性,还在训练集中混入噪声,使模型能够专注于在不同声学条件下变化较小的输入信号特征。
细节优化
为适应对话语音,还对系统的端点检测器进行了修改:
- 传统端点检测器已能区分句子末尾的停顿(表示用户已停止说话)和句子中间的停顿
- 针对实时翻译,修改了端点检测器以容忍句子末尾更长的停顿,因为参与长时间对话的说话者经常在句子间花费时间组织思路
最后,由于机器翻译的神经机器翻译系统设计用于处理文本输入,实时翻译系统会调整常见的语言不流畅现象,并对语音识别输出进行标点和格式处理,确保输入到机器翻译系统的内容更接近其习惯处理的书面文本。
持续优化方向
目前正在探索多种方法进一步改进实时翻译功能:
半监督学习:使用现有模型标注未标记数据,并将高置信度输出用作翻译专用语音识别和语言识别模型的额外训练样本。
翻译流畅度提升:使神经机器翻译引擎适应对话语音数据,并生成包含相关上下文(如语调或正式与非正式翻译)的翻译。
翻译质量持续改进:特别是对口语化和惯用表达的质量进行持续优化。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码