智能问答与对话系统

问答到对话
文本问答系统
端到端的阅读理解问答技术
前景与挑战

本文参考自《大数据智能》，仅作科普

问答到对话

人机交互的趋势

\(\mathrm{CLI} \to \mathrm{GUI} \to \mathrm{CUI}\)

命令行到图形到对话
日常聊天侧重于交流和应答，不一定是问题。

可利用检索模型、机器翻译模型、深度学习模型及情感模型。

对话系统的基本过程

语音识别(Automated Speech Recognition)
语音合成(Speech Synthesis) = 文本-语音转换(Text-To-Speech, TTS)
语音信号中还可以提取语气、语速、情绪等信息

复杂场景还可以结合其他的输入（如动作）

文本对话系统的常见场景

首先说话有”情商“高低，现有技术主要解决”智商“部分，机器想学好如何”说话“任重而道远。
应用场景：
- 寻求确切的答案和知识：例如搜索相关信息“附近有什么餐馆”
- 为达成一个目标而指示机器完成一项功能：对Siri说“提醒我明早9点开会”
- 无特定目的的聊天、寒暄等：“微软小冰”调侃打趣之类的
可能上述几种互相穿插

问答系统的主要组成

问题理解：理解问题是什么（例如区分“北京温度是多少”和“太阳天气是多少”）
知识检索：将问题组织成一个计算机可理解的检索式，其格式由知识库的结构决定（“北京面积有多大”，如果用百科全书搜索就是在“北京市”这个词条内检索“面积”这一属性信息）
答案生成：用搜索引擎获得的若干相关文档，然后从这些文档的大量内容中提取到核心的段落、句子或者词语

文本问答系统

知识组织形式不同，问答系统有很多种，文本问答系统是最基本的一类，也是各类问答的基础

问题理解

问题理解的内容

可以把问答系统的目标定义为解答这样一个问题：

谁(Who)对谁(Whom)在何时(When)何地(Where)做了什么(What)是怎么做的(How)，为什么这样做(Why)？

中英文基本要素的提问形式是相近的。研究人员整理出若干种分类体系(taxonomy)，既有平面分类(flat)，又有层次分类(hierarchical)，便于对答案进行筛选。

UIUC分类体系：双层的层次结构体系，主要针对事实类问题，设计了6个大类和50个小类。大类包括缩写、实体（某种事物）、描述（询问定义、原因等）、人物、地点和数值
Moldovan等人的分类体系：也是双层的层次结构体系，第一层主要针对问句的形式（疑问词），第二层针对答案的类别。
Radev等人的单层平面分类设计了17个类别，包括人物、数字、描述、原因、地点、定义、缩写、长度、日期等
可以根据问题所属的垂直领域（主题）进行分类，如天气类、导航类、参观类等，然后交给特定的端口处理。

问题理解的方法

问题中提取关键成分过程主要涉及NLP中的语义分析技术。

直观的做法：字符串模板匹配。

例如查询关键词“XXX是什么”，那么“XXX”就是关键词。

优势在于清晰直观，易于理解和编写；缺点在于无法适应千变万化的语言表达形式。
灵活的技术：从词法、句法入手。将问句进行词性标注，做句法分析。

例如可以用一个 \(\lambda - \mathrm{DCS}\) 表达式，便于知识库进行运算：

其构建过程由如下几种操作完成：
- 一元实体(Unary)：实体词，例如“西雅图”
- 二元卷席(Binary)：属性词，例如“出生地点”
完整知识可以以三元组给出，例如（比尔·盖茨，出生地点，西雅图）。
- 连接(Join)：将一元实体与二元关系连接，得到关系另一侧所有可能的实体，用点（“.”）表示（例子可以见图）
- 交集(Intersection)：两个一元实体集合的相交部分，用 \(\prod\) 表示。例如“职业.科学家 \(\prod\) 出生地点.西雅图”代表所有出生在西雅图的科学家
- 计数(Aggregate)：一元实体集合的元素数量，记作 \(\mathrm{count(\cdot)}\)
如问：汤姆·克鲁斯出演过多少部电视剧？其 \(\lambda - \mathrm{DCS}\) 表达式为 \(\mathrm{count(类型.电视剧\prod 演员.汤姆·克鲁斯)}\)

虽然其更加灵活，但是计数储备较多、门槛高，未必适合于小规模系统的快速开发和部署。

问题扩展

同义词词语的多样性：“贝克汉姆”和“小贝”。可能可以借助《同义词词林》。
大数据中的知识也需要进行句法分析，答案可以作为标注用于指导有监督的学习过程

知识检索

大数据时代，结构化数据少而精，非结构化数据多而全。可以利用这两方面优势，来满足用户需要。

非结构化信息检索

直观的理解：搜索引擎，从问题中提取关键词，便可以查询索引，得到与这些关键词最相关的文档。再通过后续的筛选和提取步骤，生成最终答案。
主要障碍：商业授权许可和网络延迟。我们可以自建索引，搭建自己的搜索引擎。如Lucene等开源搜索引擎框架给开发者提供极大便利。

传统信息检索任务的相关性计算方法不一定适用于问答任务，问答任务的检索式已经经过筛选了。检索出的文档应当尽量满足所有查询词的查询条件，要尽量全。

常用的策略：以段落为单位，计算连续少量段落是否出现了所有关键词，可以去除一些相关性不高的文档。取一个尽量短的窗口，包含尽量多的问题关键词。

经典做法：标准基数排序(Standard Radix Sort) 以如下三个因素排序：
- 相同顺序的关键词数目
- 最远关键词间距
- 未命中关键词数

结构化知识检索

百科类知识：识别主条目的时候易于定位答案。
关系类知识：两个事物 \(E_1, E_2\) 和他们的关系 \(R\) 表示成一个三元组 \((E_1, R, E_2)\) 例如 \((北京,面积,16801平方公里)\) 。DBpedia和YAGO是从维基百科中取出组织关系结构的数据库。

可以从百科类知识和非结构化知识中抽取构建出关系类知识，并且可以根据需求针对特定垂直领域手机数据，自行组织成结构化知识。（例如“某某相机多少钱？”）

本体与推理

蜜蜂有几条腿？\(\to\) 蜜蜂是一种昆虫 \(\to\) 昆虫有六条腿 \(\to\) 蜜蜂有六条腿

人工智能的一大重要分支——专家系统，依赖于精确组织的知识结构。整理好知识领域，可以搭建这样的技术框架。

人工整理知识库（基于专家系统方式）的问答技术已经逐渐退出了历史舞台。现在利用互联网语料自动挖掘实体关系、知识图谱的思路为其注入了新鲜血液。

基于深度神经网络模型，让机器自动学习知识并完成推理，也是有前景的研究方向。FaceBook有个数据集bAbI可用于文本理解和推理。端到端的神经网络模型，可以充分发挥其“记忆”功能，将事实隐式地存储在向量、权重中，从而完成推理。

答案生成

问题的关键词和答案的词语之间存在某种联系，因此可以考察问题和候选答案的相似度，此外也可能存在句式之间的关联。

如“北京的面积是多少？”可以把“多少”替换成答案。

端到端的阅读理解问答技术

端到端：在原始输入到最终输出间减少人的干预，只考模型自己学习。

避免了传统机器学习方法设计特征的环节，而让模型隐式地学习特征，通常比专家设计的还要好。

模型的一些“记忆”机制可以记住长距离的上下文信息，自动将多句话的重要知识存储在数字模型中，不需要人工设计知识结构和记忆逻辑，只需要足够的训练数据。

什么是阅读理解任务

即阅读一段文章，回答有关文章的若干问题，以理解文中事实为主。

有一个基于维基百科的阅读理解任务数据集SQuAD，有多个团队的数学模型超过了人类的平均得分（如BERT，CMU的QANet，百度，猿辅导等）。

在这些任务中，知识库以非结构化的篇章形式出现，阅读理解时需要包含一些简单的推理过程。

阅读理解任务的模型

前面提及的参赛队伍的模型有一些共性：

2ebdb429293fcd4d147c5db4df43bc3

输入和编码：先做词（字符）嵌入/人工提取一些特征（如词性、命名实体），作为向量。然后把问题和段落各两三个向量拼接在一起，输入到BiRNN、BiLSTM或其他序列模型进行处理，从而分别形成问题和段落的编码表示。
问题-段落的融合：最简单的办法是把问题向量和段落向量相乘，矩阵元素表示相关程度；也可以采用attention机制，那么此时可以得到二者的关联。

还有一些加强的方式，例如反复自乘、重复几遍上述运算，重复计算段落与段落之间的关联。
确定答案：要求找到答案的具体位置，通常使用指针网络(Pointer Network)，把问题与前面注意力层的段落表示相结合，即可计算出答案在段落内的概率分布，最大值就是起始位置。然后问题与起始位置相作用，即可得到答案的结束位置。（或者利用语言学特征进行重排，找到最佳答案）

阅读理解任务的其余工程技巧

集成学习：前几名的队伍都是用集成学习，多个弱分类器的集成效果反而可能强过一个强分类器，单一模型得到的训练结果并非每次相同；集成模型可以达到好的综合效果。
瓶颈及其突破：深度神经网络的一大瓶颈是训练数据的数量，比赛提供的数据量有限。谷歌大脑团队的模型是较快的CNN，因此设计了方法增加训练数据量。例如将英文翻译成法文得到 \(k\) 种版本（有一定的语言上的差异），然后将法文翻译回英文（ \(k\) 种），那么累计有 \(k^2\) 种，极大增加了训练语料数量。

前景与挑战

问答系统在大数据的支撑下有了相当大的进展，大数据更多的知识，使得有问必答；另一方面，深度学习模型提高了问答系统的准确性。

可预见的未来，问答系统的基本技术将广泛应用于各个领域，使机器逐渐从“用知识”变为“学知识”。

中文领域的问答技术发展迅速，例如《一站到底》的汪仔，将语音识别、图像处理、语义理解多种技术融合。

问答系统设计的技术较多，既包括语义分析、信息检索，又涉及知识的挖掘与管理。需要我们对我们每个环节一丝不苟，在方方面面下功夫。

posted @ 2021-05-12 21:55 zjp_shadow 阅读(1291) 评论(1) 收藏举报

刷新页面返回顶部

zjp_shadow

世界是个回音谷，念念不忘，必有回响，你大声喊唱，山谷雷鸣，音传千里，一叠一叠，一浪一浪，彼岸世界都收到了。凡事念念不忘，必有回响。因为它在传递你心间的声音，绵绵不绝，遂相印于心。