语音助手减少不必要澄清提问的技术突破

减少语音助手不必要澄清问题的新方法

在嘈杂环境中,当人们听不清或无法理解对方时,自然会要求澄清。语音助手也是如此。为避免基于不准确理解执行错误操作,语音助手通常会提出后续澄清问题,例如确认定时器应设置为15分钟还是50分钟。

传统方法中,是否提出澄清问题取决于机器学习模型的置信度。当模型预测出多个高置信度的竞争假设时,会通过澄清问题进行选择。然而,对某中心数据的分析表明,77%的情况下,即使替代假设获得高置信度分数,模型排名最高的预测仍然是正确的。在这些情况下,需要减少澄清问题的数量。

在IEEE自动语音识别与理解研讨会(ASRU)上,某机构提出通过训练机器学习模型来确定何时真正需要澄清,从而减少不必要的后续问题。

HypRank模型架构

在大多数语音助手中,用户语音的声学信号首先传递到自动语音识别(ASR)模型,生成多个语音内容假设。排名靠前的假设随后传递到自然语言理解(NLU)模型,识别用户意图(如播放视频)和语句槽位(如视频标题取值为"哈利波特")。

在该研究中,ASR和NLU模型生成的假设传递到第三个称为HypRank(假设排序器)的模型。HypRank结合ASR预测、意图分类置信度、槽填充置信度以及上下文信号(如用户启用的技能),生成不同假设的整体排名。

该方法存在三个可能的歧义来源:ASR分数相似性、意图分类分数相似性和HypRank总分相似性。传统方案中,任何这些分数的微小差异都会自动触发澄清问题。

智能澄清决策机制

该研究训练了另一个机器学习模型来决定是否提出澄清问题。除了ASR、NLU或HypRank分数的相似性外,该模型还考虑另外两个歧义来源:信噪比(SNR)和截断语句。截断语句是指以冠词("an"、"the"等)、所有格(如"my")或介词结尾的语句。

模型输入包括:排名最高的HypRank假设;任何在三个度量标准上具有足够相似分数的其他假设;SNR;指示请求是否为重复的二进制值;以及指示五种歧义来源中哪些适用的二进制值。

所有非最高排名假设的向量表示被组合形成摘要向量,然后与其他输入的向量表示连接。连接后的向量传递到分类器,决定是否发出澄清问题。

实验与结果

由于缺乏包含多个ASR和NLU假设且标注准确性的现有数据集,研究使用某机构同事在NeurIPS人机对话系统研讨会上提出的模型进行自动标注。该模型结合人工标注数据和根据用户反馈标注的数据进行训练。

数据集中所有样本至少具有一种歧义类型,基线方案是在每种情况下都提出澄清问题。这种方法假阴性率为零,但可能具有高假阳性率。新方法可能会增加假阴性率,但F1分数提高81%,表明在假阴性和假阳性之间取得了更好的平衡。

这项研究展示了通过智能决策模型显著提升语音助手交互效率的技术路径,为对话式人工智能的发展提供了重要参考。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-04 21:10  CodeShare  阅读(10)  评论(0)    收藏  举报