《ACL2020 | 对话数据集Mutual:论对话逻辑,BERT还差的很远》,2020-06,作者rumor酱

原文链接:https://mp.weixin.qq.com/s/ETnBeIIkusvdFc3a2J0QAA

以BERT为代表的预训练模型为自然语言处理领域带来了新的春天,在人机对话问题上也不例外。检索式多轮对话任务中,最有名的对话数据集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基于BERT来做却直接刷到了85.8%的,93.1%的和高达98.5%的,已经基本逼近了人类的表现(英语差的可能已被BERT超越),这让很多研究检索式聊天机器人的小伙伴直呼这个领域没法继续往下做了。

MuTual基于中国高考英语听力题改编。听力测试要求学生根据一段双人多轮对话,回答额外提出的问题。并通过学生能否正确答对问题衡量学生是否理解了对话内容。为了更自然的模拟开放领域对话,我们进一步将听力题中额外的问题转化为对话中的回复。

为了进一步提升难度,引入额外的推理信息,标注者还需根据正确选项构建一个负面的回复(回复B)。另外,标注者需要保证在无上文信息情况下,所有候选回复在逻辑上皆合理。这样可以让数据集聚焦于检测模型在多轮对话中的推理能力,而非判断单个句子是否具有逻辑性。

作者还在标注过程中控制正确和错误的回复与上文的词汇重叠率相似,防止模型可以通过简单的根据文本匹配选出候选回复。构造出的数据集主要包含聊天机器人需要的六种推理能力:态度推理(13%), 数值推理(7%), 意图预测(31%),多事实推理(24%)和常识等其他推理类型(9%)。

在真实应用场景中,检索式对话模型无法检索所有可能的回复,如果没有检索到合适的回复,系统应具有给予安全回复(safe response)的能力。为了模拟这一场景,MuTualplus被提出。对于每个实例,MuTualplus随机替换掉MuTual中一个候选回复。如果正确回复被替换,安全回复即为新的正确回复。如果错误回复被替换,原正确回复仍为四个回复中最合适的。

从结果可以看到,之前的检索式对话模型在此种任务上,表现只比Random的情况好一点。不过预训练模型也不能取得很好的效果,甚至RoBERTa也只能达到71%的Recall@1。然而未经培训的非母语者可以轻松达到94%。

进一步研究发现,模型表现不会随着对话轮数增加而变差(推理能力并不依赖复杂的对话历史)。在推理类型方面,模型在数值推理和意图推测中表现的较差。下图第一个例子中,时差运算只需简单的减法(5:00pm - 6h = 11:00am),第二个例子需要推理出对话出现在租房场景中,然而对现有的深度学习模型依然十分困难。

尽管BERT为代表的预训练模型很大程度上解决了检索式对话的回复相关性问题,但是依然难以解决真实对话场景中的常识和逻辑问题,导致聊天机器人的真实用户体验依然不尽人意。现有的检索式对话数据集大都没有直接对该问题进行建模,因此我们提出了MuTual数据集,针对性的评测模型在多轮对话中的推理能力。

posted @ 2020-06-04 10:03  ZH奶酪  阅读(121)  评论(0编辑  收藏