随笔分类 -  knowledge_graph

摘要:3.1 概述实体的获取: 从文本语料库挖掘尽可能多的高质量词汇 领域短语挖掘 同义词挖掘 缩略词挖掘 实体识别 当一个词汇在某个上下文表达的是某个预定义的概念时,该词汇就是一个实体词汇表: 主题词 关系:等价关系,等级关系3.2 领域短语挖掘3.2.1 问题描述输入:领域预料 输出:高质量短语(Hi 阅读全文

posted @ 2020-01-14 14:40 happygril3 阅读(2853) 评论(0) 推荐(1)

摘要:1. 基于图的表示 二元组G=G(V,E),V表示点的集合,E表示边的集合2. 基于三元组的表示 <主体(Subject)谓词(Predicate)客体(Object)> <主体(Subject)属性(Property)属性值(Property Value)>3. 知识图谱的数值表示 知识图谱中事实 阅读全文

posted @ 2020-01-09 17:37 happygril3 阅读(3272) 评论(0) 推荐(0)

摘要:1.思路自然语言语义分析 >知识库看懂的语义表示/逻辑表示(Logic Form) >推理(Inference)查询(Query) >答案如:自然语言”Number of dramas starring Tom Cruise“ 逻辑形式: count(Genre.Drama ∩ Performanc 阅读全文

posted @ 2020-01-08 17:50 happygril3 阅读(508) 评论(0) 推荐(0)

摘要:1. 问答系统的分类 非结构化的知识源 单文档阅读理解(Single-document Reading Comprehension):单一文档寻找答案 多文档阅读理解(Multi-document Reading Comprehension):多个文档检索答案 结构化的知识源 基于关系型数据库的问答 阅读全文

posted @ 2020-01-08 10:52 happygril3 阅读(4896) 评论(0) 推荐(0)

摘要:6.1 推理概述6.1.1 什么是推理 逻辑推理: 演绎推理(Deductive Reasoning): 自上而下 给定一个或者多个前提的情况下,推断出一个必然成立的结论的过程 归纳推理(Inductive Reasoning) 自下而上,典型是归纳泛化(Inductive Generalizati 阅读全文

posted @ 2019-12-23 19:24 happygril3 阅读(1871) 评论(0) 推荐(0)

摘要:5.4.1 实例层的融合和匹配 空间复杂度挑战 时间复杂度挑战: 匹配元素对的相似度计算次数(n2) 每次相似度计算时间复杂度(t) 匹配结果质量挑战5.4.2 基于快速相似度计算的实例匹配方法 思想:降低每次相似度计算的时间复杂度,即t 映射过程只能使用简单且速度较快的匹配器,映射线索尽量简单; 阅读全文

posted @ 2019-12-23 18:12 happygril3 阅读(2485) 评论(0) 推荐(0)

摘要:知识问答系统(Question Answering QA): 接收自然语言表达的问题--理解用户意图--获取相关知识--推理计算--自然语言形成答案 8.1.1 问答系统的基本要素 问题:问答系统的输入 答案:问答系统的输出 智能体:问答系统的执行者,理解问题语义,掌握并使用知识库解答问题,形成可供 阅读全文

posted @ 2019-12-04 18:34 happygril3 阅读(947) 评论(0) 推荐(0)

摘要:5.3.1 本体映射和本体集成 本体映射:寻找本体间的映射规则 本体集成:直接将多个本体合并为一个大本体 基于单本体的集成: 决定本体集成的方式:判断消除异构的单本体是应该从头建立,还是应该利用现有的本体来集成 识别本体的模块:明确集成后的本体应该包含那些模块 识别每个模块中应该被表示的知识:概念, 阅读全文

posted @ 2019-12-04 15:39 happygril3 阅读(4595) 评论(0) 推荐(0)

摘要:5.2.1 语言层不匹配 1. 语法不匹配--不同的语言转化为同样的语法格式 2. 逻辑表示不匹配--定义从语言L1逻辑表示到语言L2的逻辑表示的转化规则 3. 原语的语义不匹配 4. 语言表达能力的不匹配--表达能力弱的语言向表达能力强的语言转换5.2.2 模型层不匹配1. 概念化不匹配:对于同样 阅读全文

posted @ 2019-12-04 15:29 happygril3 阅读(827) 评论(0) 推荐(0)

摘要:从已有的实体及实体关系中挖掘新的知识,包括内容挖掘和结构挖掘1. 内容挖掘:实体链接 文本中的实体--链向--知识库中目标实体,建立文本与知识库的联系 流程: (1)实体指称识别 通用命名实体识别技术 词典匹配技术 (2)候选实体生成 表层名字扩展:实体是缩略词或者全称的一部分 搜索引擎:将实体提及 阅读全文

posted @ 2019-11-29 16:42 happygril3 阅读(661) 评论(0) 推荐(0)

摘要:1. 面向百科类的数据抽取 框架: 页面集合:包含本地及远程的维基百科文章数据 目标数据:存储或序列化提取的RDF三元组 提取器:将特定类型的维基标记转化为三元组的提取器 解析器:确定数据类型,在不同单元之间转换值并标记分解成列表 提取作业:将页面集合,提取器和目标数据分组到一个工作流 知识提取管理 阅读全文

posted @ 2019-11-29 15:40 happygril3 阅读(2531) 评论(0) 推荐(0)

摘要:1.任务: 识别事件触发词及事件类型 抽取事件元素,判断角色 抽取描述事件的词组和句子 事件属性标注 事件共指消解 2. 流水线方法: 将事件抽取任务分解为一系列基于分类的子任务,每个子任务由一个机器学习分类器负责实施 分类器包括: 事件触发词分类器:判断词汇是否为事件触发词,并基于触发词信息对事件 阅读全文

posted @ 2019-11-29 11:09 happygril3 阅读(419) 评论(0) 推荐(0)

摘要:1.基于规则 2.基于统计模型(1)隐马尔可夫模型(Hidden Markov Model) HMM x1 >x2 >x3 > 隐状态序列 ↓ ↓ ↓ y1 y2 y3 观察输出序列(2)条件马尔可夫模型(Conditional Markov Model)(3)最大熵模型(Maximum Entro 阅读全文

posted @ 2019-11-29 10:42 happygril3 阅读(546) 评论(0) 推荐(0)

摘要:1. 基于模板的关系抽取方法 模板1:【x】与妻子【y】.......... 2. 基于监督学习的关系抽取方法 将关系抽取转化为分类问题 1. 预定义关系类型 2. 人工标注数据 3. 设计关系识别所需的特征,一般根据实体所在句子的上下文计算获得 轻量级:实体和词的特征 中量级:句子中语块序列的特征 阅读全文

posted @ 2019-11-29 10:35 happygril3 阅读(895) 评论(0) 推荐(0)

导航