基于KG的智能QA方案

基于知识图谱的相关应用大致可以分为搜索、问答、决策、推荐等几种常见的类别,对于知识图谱的理解,可以参考之前的文章《三个角度理解知识图谱》,本文主要就年初规划的xx智能问答建设方案,介绍一下基于知识图谱的智能问答,主要分为如下几个方面:

1、人机对话体系结构

2、问答产品知识结构

3、典型的智能问答产品

4、智能问答的关键技术

5、基于知识图谱的智能问答

 

1、人机对话体系结构

对于一个基于人机对话的问答系统,主要包括唤醒、识别、理解、反馈四个过程,其中语音唤醒、语音识别、自然语言生成以及语音合成是为用户的语音体验服务的,而问答的核心部分是对问题进行理解,并给出相应的答案,主要涉及到语言理解、语义搜索、知识图谱、情感分析、对话管理以及深度问答等。对于不同的问答系统可以对该体系中的相关部分进行增删和修改,或看成一个由简单到完善的发展过程。比如,对于xx问答系统,在初期阶段,可能做不到语音问答的形式,那么,重点就应该落在理解这个部分,以实现初步的文本识别、文本理解和文本回答。

 

2、问答产品知识结构

问答类产品的主要目标是输入问题,获得答案。从问题的类型上可以分为事实类/非事实类,不同类型的处理方式以及技术难度都存在一定差异。在问答形式上可以分为单轮问答、多轮以及聊天式的情感互动,其中单轮问答相对简单,多轮问答以及情感互动还处于较为初级的发展阶段。对于问答系统的实现方式也有多种,对技术需求也不尽相同,要根据具体的需求具体规划。

3、典型的智能问答产品

  • 苹果 Siri

Siri 作为 iPhone 4S 推出时的一个亮点特征,定位是语音个人助理。在推出之时,引起了极大的轰动。虽然这么多年 Siri 的技术也不断提升,但他更大的价值是作为聊天机器人之门开启的开门砖,教育了用户和市场。回到刚刚的分类,Siri 其实是一个面向特定任务的对话系统。对接了很多本地服务如通讯录、音乐播放等以及 Web 服务如订餐、订票和导航等功能服务。针对这些服务意图,他通过实体驱动的自然语言理解(Natural LanguageUnderstanding, NLU)来识别问句中涉及到的对象和相关服务,从而实现特定任务下的多轮功能交互。对于解决不了的问题,即服务意图范畴外的需求,则直接调用搜索引擎返回相关答案来返回。随后,Siri 的核心人员 Dag Kittlaus 和 Adam Cheyer 于 2016 年推出了 Viv。Viv 被认为是 Siri 的升级版,虽然其在多服务组合,服务编排等方面做了不少亮点工作,但背后的基本原理和定位和 Siri 无差异。

  • 微软小冰和小娜

微软针对娱乐化和工具化这两个截然不同的定位,分别推出了小冰和小娜(Cortana)。小娜,作为嵌入在 Windows 或 Windows Mobile 等微软操作系统内核的语音个人助理,承载着类似 Siri 或 Viv 的角色,它的目的是提升用户的工作效率,据说 Cortana 有 1.5 亿多用户,这也使得微软吸引到 Bengio 这样的大师作为顾问加入。另一方面,小冰是微软中国团队推出的娱乐聊天机器人。她的人设是一位 16 岁的少女。小冰是一个基于搜索的回复检索系统。通过各种基于深度学习的语义匹配算法,从海量的问答对语料中返回最佳的回复(Message response 而非 Answer)。小冰也会不定期推出新的技能供大家使用,这些技能往往包含了微软团队在图像理解、语音和自然语言理解方面的各种小应用尝试。更值得一提的是:微软针对日本、北美和欧洲等市场陆续推出了具有不同人设的少女如 Rinna、Tay和 Zo,她们往往可以方便的通过微信、微博或 Twitter 等平台进行交流。

  • IBM Watson 系统

Watson 系统是典型的问答系统,其由 IBM 研究院在 2011 年推出,参加美国知识竞赛Jeopardy!(危险边缘)并挑落人类冠军而名声大躁。相比 AlphaGo 或早年 IBM 研制的战胜卡斯帕罗夫的国际象棋人工智能程序深蓝,Watson 具有更清晰的商业路径。IBM 斥巨资成立医疗事业部,并与 MD Anderson 等知名医疗机构合作推出面对特定病种(尤其是癌症)的辅助诊断 AI 医生。与此同时,Ross Intelligence 依托 Watson 认知计算平台推出了法律咨询系统。回到技术层面,Watson 所用到的知识库是一个广义的知识库,不仅包含各种结构化知识、也包含各种文本语料和语言学知识。整个流程称为 Deep QA,包含问题分解、假设生成、基于证据的融合排序等关键步骤。这里的 Deep QA 并非指通过深度学习(Deep Learning)技术来提供问答。事实上,Watson 诞生于深度学习大热之前,这里的Deep 是指通过深度解析(Deep Parsing)来实现对问句的真正理解。

  • Facebook Messenger

Facebook Messenger 是一个庞大的 Bot 平台,有非常活跃的开发者群体,平台包含上万种 Bots。针对 Messenger,第一,它在 2014 年收购了 wit.ai。Wit.ai 类似于谷歌所收购的 api.ai,包含大量的行业相关或场景相关的对话。基于以上高质量海量的对话数据,Facebook 基于深度学习技术推出了一个用于自然语言处理的框架叫 DeepText,用于自然语言表示学习和各种分类等任务。有名的 Fast Text 也包含在内。Facebook 更是基于Deep Text 推出了 CLUE,进一步提高了其易用性。通过以上的数据和技术积累,Facebook就可快速构建一个端到端的 Chatbot 或者问答系统。此外,还有一点需要强调的是,我们可以发现 Facebook Bot 的很多应用场景涉及到购物、递送礼物、预约参观和安排旅程等非实时任务,即相对比较复杂,但不要求马上得到反馈。传统的做法是,通过指派一名客服来对接,提供进一步的服务。对于这些非实时任务,Facebook 结合机器返回的自动化推荐结果和人工的进一步编辑和审核来保证用户体验的同时也降低了纯人工对接存在效率低、工作量大等弊端。而这也是近期大家很推崇的人机融合,即赋予人工智能新的内涵:ArtificialIntelligence+Human Intelligence(人类智能)=Augmented Intelligence(增强智能)。

  • 亚马逊Alexa

Alexa 作为亚马逊 Echo 智能音箱背后的 Bot 框架,通过 Skill Set 的形式不断扩展其功能,其内核是亚马逊在 2016 年底发布的 Lex,并对接专注图像识别的 Rekognition 和基于机器学习特别是深度学习技术的快速 TTS(文本到语音转换)。细心的观众会发现 Echo 音箱并没有提供任何屏幕,仅通过语音进行交互,依托 Amazon 的内容资源和电商购物优势提供各种智能交互。这种以语音为主的交互方式在家庭、车载等领域得到广泛关注和应用,由此也提出了 Voice UI 的概念。除了语义理解,这里需要强调的是:对于 Echo 音箱的交互,是采用远场(通常 3-5 米)沟通的。对于远场语音交互,目前远比近场通讯的难度大,涉及到声源定位、噪声(如回声、背景噪声、各种声波反射折射产生的混响)消除、人声分离、声音增强甚至是声纹识别等各种技术挑战。目前通用的做法是采用麦克风阵列+波束成形等方案,不过有很大的提升空间。不过智能音箱是否能在中国成为一个爆款,这个还是一个未知数,当然这里涉及到更多使用习惯、价格、内容质量等很多非技术因素的考量,在此就不做具体展开。

  • Google Assistant

从 Google Now 到 Google Assistant,谷歌一直没有停止过在语音个人助理方面的尝试。Allo是基于 Google Assistant 的新一代人工智能类微信 IM 应用。Allo 具有几个亮点:首先,其具备一定的自我学习能力。这里包括两方面的学习,一方面是学习用户的习惯,包括说话风格和交互模式。值得一提的是,Allo 的开发者也参与了 Gmail Smart Reply功能的开发,帮用户草拟回复的邮件。具体来说,根据邮件接收的对象、主题和关联的场景等,根据用户口吻来尽量完成要回复内容。另一方面也包括用户偏好的学习,这一点在推荐系统中是非常重要的,属于用户画像的学习。Allo 学习用户画像的低维稠密向量化表示(User Embedding)。将 User Embedding 加入 Chatbot 的回复生成解码模型中,将有助于回复的相对一致性和个性化。

  • 百度度秘

度秘(英文名:Duer)是百度出品的对话式人工智能秘书,2015年9月在百度世界大会中推出。它是基于DuerOS对话式人工智能系统,通过语音识别、自然语言处理和机器学习,用户可以使用语音、文字或图片,以一对一的形式与度秘进行沟通。目前DuerOS已经具备10大类目100多项能力,可以为不同行业的合作伙伴赋能,广泛支持手机、电视、音箱、汽车、机器人等多种硬件设备,实现语音控制、日常聊天、直接提供多种O2O服务等的智能化转变,被国内外同行称为“具有划时代意义的对话式人工智能操作系统”。依托于百度强大的搜索及智能交互技术,度秘可以在对话中清晰的理解用户的多种需求,进而在广泛索引真实世界的服务和信息的基础上,为用户提供各种优质服务。

  • 搜狗汪仔

搜狗汪仔机器人是搜狗公司打造的问答机器人,搜狗汪仔能听、会说、会看、会思考,代表了人工智能领域的前沿技术。搜狗汪仔背后依靠的是基于人工智能技术的搜狗立知问答系统。立知问答系统是搜狗搜索研发的面向未来的搜索技术,在理解用户的问题或信息需求后,利用海量网络信息及大规模知识库,直接给出答案,方便快捷,适用于多种交互方式。其背后蕴含语义分析、问题理解、信息抽取、知识图谱、信息检索、深度学习等众多技术。

  • 阿里小蜜

阿里小蜜是一个无线端多领域私人助理,依托于客户真实的需求,通过智能+人工的方式提供客户极致的购物体验服务,提升客户留存并创造价值。在跨终端、多场景领域支持多轮交互、多模式交互(文本、语音和图像)和问题推荐预测、支持多模型识别客户意图,基于客户需求的垂直领域(服务、导购、助手等)均通过智能+人工的方式提供客户极致的客户体验。

  • 科大讯飞灵犀

灵犀是中国移动和科大讯飞联合推出的智能语音助手,更是国内首款支持粤语的语音助手。灵犀既能语音打电话、发短信、查天气、搜航班,还能查话费、查流量、买彩票、订彩铃,还可以陪你语音闲聊讲笑话。

  • 其它

其它还包括叮咚智能音箱、小i机器人、海知智能的机器人等。这里的智能问答助手主要都是通过机器人、虚拟语音助手、音箱等形态来承接,并且具有多模态识别以及服务推荐、引导、聊天等功能,比一般的文本问答都更智能、更方便。


4、智能问答的关键技术

  • 智能问答系统的能力需求

根据AI应用能力框架,对于智能问答系统的能力需求,可以分为基础能力、业务积累以及智能技术三部分。其中基础能力主要是解决智能问答中的比较基础的、通用的、基础的能力如敏感词过滤、多种问法识别等;业务积累主要是指针对具体的问答领域,在业务上所需积累的经验,比如大致可以把问题分成几类,每种类型有哪些,一般采取什么样的回答方式等;智能技术主要是面对更高级的应用的技术,如怎样实现多轮对话、识别多种模态、动态载入等。

  • 智能问答系统的技术范围

目前国际上的智能问答技术主要采用检索技术、知识网络、深度学习这三大技术,当然,对于以上三种技术最后都需要应用在自然语言处理领域才能最终实现所需的功能。

 

  • 不同类别的问答系统

问答系统可分为面向任务、面向知识和面向聊天三类,从关键技术上分,还可以把其分成基于搜索技术的问答系统、基于协同的问答系统、基于知识库的问答系统。

面向任务的问答系统是一种闭域应用,通常使用基于规则的或基于模板的方法,并采用对话状态跟踪技术。在帮助服务中所使用的槽位填充方法,就是一种基于模板的方法。

面向知识的问答系统可用于闭域和开放域,通常使用以数据为驱动的信息检索模型。该类方法基于从问答知识库中查找与提问问题最匹配的知识。一份最新的研究工作尝试使用基于神经网络的方法实现问题间的匹配。最常用的一种方法是基于知识图谱与信息检索相结合的方法,检索知识图谱可给出高准确率的问答,并以信息检索为补充。

基于聊天的问答系统常用于开放域,使用方法包括信息检索和生成模型。

 

5、基于知识图谱的智能问答

对于知识图谱的构建需要从两个角度来进行抽象,一个是实体维度的挖掘,一个是短句维度进行挖掘,通过获取各种网上积累的大量数据,通过主题模型的方式进行挖掘、标注与清洗,再通过预设定好的关系进行实体之间关系的定义最终形成知识图谱,下表为知识图谱作为问答匹配的优缺点对比:

基于知识图谱的问答匹配

优点

  • 在对话结构和流程的设计中支持实体间的上下文会话识别与推理
  • 通常在一般型问答的准确率相对比较高(当然具备推理型场景的需要特殊的设计,会有些复杂)

缺点

  • 模型构建初期可能会存在数据的松散和覆盖率问题,导致匹配的覆盖率确实;
  • 对于知识图谱增量维护相比传统的QA Pair对知识的维护上的成本会更大一些;

对于知识图谱处理问答匹配的流程一般可以总结为如下图,主要包括8个过程:

  • 自然语言的输入:问题文本
  • 问题分类器:对输入的自然语言进行问题分类;
  • 问题分析:主要完成分词、词性标注、实体识别和实体消岐工作;
  • 语义槽提取:完成类别判别;
  • SPARQL抽取:主要完成构造SQPARQL模板工作;
  • 语义链接:主要解决语义槽中待链接的自然语言表达分别链接到<类别,资源,实体>对应的知识图谱中的URL上;
  • SAPQRL查询生成:查询生成模块以及问题类别,以及连接完成的实体,构造标准的SPARQL查询;
  • 结果生成:由SPARQL查询返回相应的结果,并转化成用户易于理解的形式;

基于知识图谱的智能问答,以上只是一种简单的实现方式,实际的情况远比这个要复杂,如果要达到比较好的智能问答效果,需要在语料库、技术架构、算法、业务理解等方面下功夫。这里借用电信业务场景的智能问答机器人的架构,简单展示一下具体的逻辑架构,更多详细资料可以参考相关论文(基于电信业务场景的智能问答机器人关键技术)。

 

posted @ 2020-04-24 18:19  深度预习  阅读(1098)  评论(0编辑  收藏  举报