摘要:OPEN INFOREBSEARCH QUERY LOGSMATION EXTRACTION FROM WEBSEARCH QUERY LOGS第一章介绍 搜索引擎日益比传统的关键字输入、文档输出的先进,通过关注面向用户的任务提高用户体验,面向用户的任务包括查询建议、搜索个性化、推荐链接。这些以用...
阅读全文
摘要:Discovering Word Senses from Text第一章简介 使用词形的词义在很多应用中具有重要的作用,这些应用包含信息检索、机器翻译、问答系统。在之前的方法中,词义通常使用人工构建的词典建立。这种做法使词义有一些不利之处。首先,人工建立的词典通常包含罕见的词义。第二,这些词典缺失...
阅读全文
摘要:语言模型的基本概念 本文介绍一下有关语言模型的基本概念,但是在介绍语言模型之前,先简单回顾一下自然语言处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被当前的互联网发展所带动起来的。在互联网上充斥着大量的信息,主要是文字方面的信息,对这些信息的处理离不开自然语言处理的技术。...
阅读全文
摘要:中文事件抽取关键技术研究(谭红叶博士毕业论文)事件抽取的定义 ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的...
阅读全文
摘要:Distant Supervision for relation extraction without labeled data远程监督:使用未标注语料做关系抽取1.背景: 关系抽取(某个人是否属于某个组织等) 关系抽取中使用的3种方法: a)监督学习 优点:准确率很高 缺点:1....
阅读全文
摘要:Large-Scale Named Entity Disambiguation Based on Wikipedia Data基于维基百科数据的大规模命名实体消岐1.引言 1.1.概念 实体(entity):客观存在的事物; 表层形式(surface form):实体的助记符号; 实体和表层...
阅读全文
摘要:A Neural Probabilistic Language Model,这篇论文是Begio等人在2003年发表的,可以说是词表示的鼻祖。在这里给出简要的译文A Neural Probabilistic Language Model一个神经概率语言模型摘要 统计语言模型的一个目标是学习一种语言...
阅读全文
摘要:基于维基百科的中文命名实体关联度计算(出自北方工业大学报) 基本的假设是wiki页面中每个链接都指向一个命名实体。通过链接来计算关联度。 每个维基百科页面都有唯一的标识符,命名实体关联度是指命名实体的相关性.关联度是一个数值,取值范围为(0,1).一个命名实体与本身的关联度为1,如果两个命名实体...
阅读全文
摘要:槽填充中模式优化方法的研究(硕士毕业论文) 沈晓卫针对槽填充任务的实现方法 主要可以分为三种: 第一种是把槽填充任务转换为关系抽取任务,用传统的信息抽取方法来实现槽填充任务,按照具体实现方法的不同,信息抽取方法又可以分为模式匹配的方法和基于分类器的方法 第二种是以问答系统(Question...
阅读全文