多领域对话自动评估技术突破
自动评估与Alexa的对话
随着与Alexa的交互越来越多地涉及多轮对话,Alexa使用这些对话来填充请求的细节或协调多个技能。与所有已部署的AI模型一样,对话模型需要定期评估以确保满足客户需求。但评估对话交互是一个挑战;历史上,这需要人工判断,使得评估缓慢且成本高昂。
在自然语言处理实证方法会议(EMNLP)上,我们提出了一种新的基于神经网络的模型,试图估计客户对对话交互的满意度。
模型架构
新的对话交互客户满意度估计模型使用双向LSTM(bi-LSTM)和注意力层。双向LSTM正向和反向分析交互序列,而注意力层确定哪些对话轮次对整体满意度贡献最大。
在涉及28个领域(如音乐、天气、电影和餐厅预订)的三个不同用户群体的测试中,我们的模型估计客户满意度的准确率比先前的基于神经网络的模型提高了27%。
新模型比我们团队早期模型的准确率也提高了7%。早期模型利用了Alexa先前对话管理器的特定功能,而新模型不需要,这意味着它应该能够推广到新的对话管理器或替代的对话管理方法。
训练方法
训练对话评估模型的直观方法是使用根据满意度标记的样本对话。然而,这被证明具有挑战性:人们经常对同一交互的整体评估存在分歧,且客户评估存在噪声。
研究人员通常使用每个对话轮次单独评分的训练数据;在逐轮评估上往往有更多一致性。这是我们先前工作采用的方法。
在我们的新工作中,我们同时在逐轮数据和整体用户评估上训练模型。我们使用注意力机制来加权逐轮评分对最终评分的贡献。这些权重从数据中学习,并可以跨多个技能和任务泛化。
更通用的模型
在我们先前的工作中,我们确定了48个输入数据的独特特征,对话模型应使用这些特征来预测客户满意度。其中一些特征是通用的,例如语音识别器对其输入话语转录的置信度。然而,其他特征指的是Alexa对话管理器早期版本跟踪的特定对话行为,如肯定、否定、询问或终止。
在新工作中,我们仅保留原始48个特征中最通用的12个,并基于通用句子编码器(USE)添加了五个新特征。USE是一种用于嵌入输入文本的模型,或将它们表示为多维空间中的点,使得相关文本的点聚集在一起。我们的新输入特征包括客户和系统话语的USE嵌入以及它们之间相似性的度量。
这个特征集比我们早期工作中使用的特征集通用得多,因此适用于一系列对话管理器和领域。然而,使用该特征集训练的模型表现优于我们早期的模型——即使测试数据包括早期模型训练的特定对话行为。
技术细节
在我们的论文中,我们首先考虑使用长短期记忆(LSTM)网络预测逐轮评分的模型。LSTM按顺序处理序列输入,因此每个输入对应的输出考虑了其前面的输入和输出。
然后我们提出了一个模型迭代,用双向LSTM(bi-LSTM)替换LSTM,双向LSTM向前和向后处理相同数据。双向LSTM联合预测逐轮评分和整体对话评分。
双向LSTM的输出通过注意力层,该层给予某些对话轮次比其他轮次更大的权重,然后传递到网络的最终层执行分类。在训练期间用于评估模型的损失函数是轮次级别评分和整体对话评分的加权组合。
在正在进行的工作中,我们计划扩展模型以考虑个体用户的偏好。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码