语音助手阿拉伯语本地化技术解析
语音助手阿拉伯语本地化技术解析
阿拉伯语版语音助手于2021年12月在沙特阿拉伯和阿联酋推出。与所有新语言版本一样,阿拉伯语在语音识别、语言理解和语音合成方面提出了独特挑战。
语言变体处理策略
虽然沙特和阿联酋的官方书面语言是现代标准阿拉伯语(MSA),但日常生活中使用者普遍采用方言形式的阿拉伯语,存在多种方言变体。技术团队决定让系统同时理解MSA和海湾方言(Khaleeji),语音输出也采用双模式:MSA用于正式应答(如信息查询),方言用于非正式场景(如闹钟确认和音乐选择)。
核心技术架构
新语言模型包含三大核心组件:
- 自动语音识别(ASR):将语音转换为文本
- 自然语言理解(NLU):解析文本以执行操作
- 文本转语音(TTS):将NLU输出转换为合成语音
ASR模块技术实现
阿拉伯语书写时通常省略短元音,类似将英文单词"begin"写作"bgn"。技术团队需要决定ASR输出是否包含注音符号。最终决定仅使用shaddah和maddah两种注音符号,因其有助于提高实体名称的发音准确性。
针对方言阿拉伯语和外来词缺乏标准正字法的问题,ASR团队采用目录摄取标准化器,将法语和英语术语目录转换为拉丁字母表示。团队从英语声学模型开始,使用目标海湾方言的阿拉伯语公共数据集和Cleo技能收集的数据进行训练。
NLU模块技术创新
NLU模型需要对接ASR转写的语句并按意图分类(如播放音乐),同时识别语句中的所有槽位(如歌曲名、艺术家名)及其对应值。
阿拉伯语使用词缀(前缀和后缀)传达语境含义,部分词缀(如冠词和介词)与NLU无关,但所有格等词缀需要独立的槽位标签。语言工程师设计了分词器来分离重要词缀。
团队采用三语言模型(阿拉伯语、法语、英语),通过重采样技术扩展训练数据多样性,并构建语句复杂度度量来确定每个语句模板的最佳训练样本数量。
模型训练采用基于BERT的语言模型,使用未标注数据和标准语言建模目标进行预训练。随后在标注的法语和英语数据上进行微调,最后在所有三种语言的标注数据上再次微调以确保性能平衡。
TTS模块技术方案
虽然注音符号可能影响NLU处理,但对TTS至关重要。阿拉伯语TTS模型收到文本字符串后,会通过注音器添加完整的注音符号。
注音器主要基于MSA文本训练,辅以团队自行编译的海湾方言数据。该模型采用注意力机制处理完整语句上下文。海湾阿拉伯语输出随后通过基于规则的系统转换注音符号表示。
文本转语音模型本身是神经网络,以文本为输入并输出声学波形,利用了最新的表达性语音技术来赋予阿拉伯语TTS生动的会话风格。
技术演进方向
新的语音助手语言不仅是新语言,更是针对特定地区的新本地化版本。技术团队将继续扩展阿拉伯语到更多地区,同时将系统扩展到全新的语系家族。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号