语音代理减少不必要澄清问题的新方法
语音代理减少不必要澄清问题的新方法
在嘈杂环境中,当人们听不清或不明白对方意思时,自然会要求澄清。语音代理(如某中心的Alexa)也是如此。为了避免基于不准确或不完整理解采取错误行动,语音代理会提出后续问题,例如询问定时器应设置为15分钟还是50分钟。
传统上,提出此类问题的决定基于机器学习模型的置信度。如果模型以高置信度预测多个竞争假设,澄清问题可从中做出选择。然而,对某中心数据的分析表明,77%的情况下,即使其他假设获得高置信度分数,模型排名最高的预测也是正确的。在这些情况下,我们希望减少提出的澄清问题数量。
在IEEE自动语音识别与理解研讨会(ASRU)上,我们提出了通过训练机器学习模型来确定何时真正需要澄清,以减少不必要的后续问题。实验中,我们将该方法与基于置信度分数阈值和其他类似启发式方法的决策进行比较。发现我们的模型将澄清问题的F1分数提高了81%(F1分数综合考虑了假阳性——不需要提出的问题,和假阴性——应该提出但未提出的问题)。
HypRank模型
大多数语音代理中,客户语音的声学信号首先传递到自动语音识别(ASR)模型,生成多个关于客户所说内容的假设。排名最高的假设然后传递到自然语言理解(NLU)模型,识别客户意图(客户希望执行的操作,如PlayVideo)和话语槽(意图应操作的实体,如VideoTitle,可能取值为“Harry Potter”)。
在我们论文考虑的设置中,ASR和NLU模型生成的假设传递到第三个模型HypRank(假设排序器)。HypRank结合ASR、意图分类和槽填充的预测和置信度分数,以及上下文信号(如给定客户启用的技能),生成不同假设的整体排名。
这种方法存在三个可能的歧义来源:ASR分数相似性、意图分类分数相似性和整体HypRank分数相似性。在传统方案中,任何这些分数的足够小差异都会自动触发澄清问题。
澄清与否
在我们的方法中,我们训练另一个机器学习模型来决定是否提出澄清问题。除了ASR、NLU或HypRank分数的相似性外,该模型还考虑另外两个歧义来源:信噪比(SNR)和截断语句。截断语句是以冠词(“an”、“the”等)、多个所有格(如“my”)或介词结尾的语句。例如,“Alexa, play ‘Hello’ by”是一个截断语句。
作为输入,模型接收排名最高的HypRank假设;任何其他在三个度量中分数足够相似的假设;SNR;指示请求是否为重复的二进制值(表示第一次未满意完成);以及指示五种歧义来源中哪些适用的二进制值。
输入假设的数量可能因歧义类型数量而异。因此,所有非排名最高假设的向量表示被组合形成摘要向量,然后与其他输入的向量表示连接。连接后的向量传递到分类器,决定是否发出澄清问题。
实验
据我们所知,目前没有现有数据集包含根据准确性标记的多个ASR和NLU假设。因此,为了训练我们的模型,我们使用了由某中心同事去年在NeurIPS人机对话系统研讨会上提出的模型自动注释的数据。
他们的模型结合了手动注释数据和根据客户反馈标记的数据进行训练,这些客户在Alexa交互后被特别询问是否对结果满意。我们使用该模型标记其他话语,无需人工参与。
由于数据集中的所有样本至少具有一种歧义类型,我们的基线是在每种情况下都提出澄清问题。该方法假阴性率为零——从不会在必要时错过澄清问题——但可能具有高假阳性率。我们的方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。
研究领域:对话式AI
标签:自然语言理解(NLU)、自动语音识别(ASR)
会议:ASRU 2021
相关出版物:大规模口语理解中决定是否提出澄清问题
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号