基于词向量的学术语义搜索研究 论文笔记

Posted on 2019-03-03 19:23  岚月  阅读(803)  评论(0)    收藏  举报

论文名和编号

摘要/引言

相关背景和工作

论文方法/模型

实验(数据集)及

分析(一些具体数据)

未来工作/不足

是否有源码

问题

原因

解决思路

优势

 

 

 

 

 

基于词向量的学术语义搜索研究

编号:1000-5463(2016)03-0053-06

1.词向量由于词的语义生成文档的语义并不像直观地看起来那样简单。直接用简单的线性相加的方式会丢失词语间的上下文信息。

1. 

1. 基于词向量的语义搜索模型。利用 词向量化技术,从大量的语料库中进行训练,学习每 个词的向量化表示。之后由词的向量计算出文档的 向量,由此就可以计算出文档与文档之间、文档与查 询词之间的语义距离,从而实现精准的语义搜索。

1.针对学术搜索的实际情况,提出了利用题目+关键词来训练语义向量,并将关键词作为完整词汇加入到分词组件的用户自定义词典中;利用随机映射的方法,提高了在向量空间中查找最相关文档的效率,并进行语义查询。

1.深度机器学习技术取得了长足进步,因此出现了新的语义计算方法,如word2vec、Glove等。

2.词向量技术在2个方面取得了巨大的进步:相比于LSA挖掘的概念,词向量技术计算出的词的语义向量包含了线性语义特征,可以捕获词的语法及语义的线性相似度;词向量利用深度机器学习技术,可以在大型的语料库里进行训练,利用的数据量越大,得到的模型越精确。

1.基于词向量的语义搜索模型,利用词向量化技术,从大量的语料库中进行训练,学习每个词的向量化表示,之后由词的向量计算出文档的向量,由此计算出文档与文档之间、文档与查询词之间的语义距离,从而实现精准的语义搜索。

2.算法一:基于词向量的学术论文语义搜索:

第1步:抽取出论文标题即关键字,形成语料库。

第2步:将抽取出的关键字加入分词组建的用户自定义字典中,对语料库中的论文数据进行分词。

第3步:将分词后的数据调用Glove进行训练,得到每个词的语义向量库。

第4步:对用户输入的查询进行相关词扩展,选出相似度大于设定值的最相近词汇,组成新的查询。

第5步:计算新查询的向量,在语义向量库中查询与其最相关的文档并返回。

为提高相关文档的查询效率,使其适用于大规模的文档库中,利用随即映射的方法,在大规模向量空间中快速查询最相关文档。在向量空间中随机生成一条分隔线,将向量空间分成不同的2个子空间,如此多次进行随机分割,空间的划分方法就生成了一颗随机树,再在随机数中定位查询目标向量所在的划分区域,在这些区域中查找与之最相关的文档。由于在向量空间中相近的点极大可能落在随机树的同一个划分区域中,所以如果进行多次随机划分,生成的多个随机树的查询结果的并集将会覆盖到完整的最相关文档的绝大部分。

  1. 数据:于学者网抽取的计算机方向16个中文核心期刊的12727篇论文,分别来自计算机学报、软件学报、计算机研究与发展、自动化学报、计算机科学、控制理论与应用、计算机辅助设计与图形学学报、计算机工程与应用、模型识别与人工智能、控制与决策、小型微型计算机系统、计算机工程、计算机应用、中国图像图形学报、遥感学报和中文信息学报。
  2. 题目+关键字与题目+关键字+摘要:如表一,在其他条件相同的情况下,考察是否采用摘要信息对语义的影响。结果在加入摘要信息后虽然考虑的内容更全面了,但是精度却有明显的下降,也就是说在对语义进行线性计算的方案中,摘要包含的多个语义上无关的词汇会对最终生成的论文的语义向量造成干扰,与数学中“1+(-1)=0”的原理一致。
  3. 关键字作为单独词汇:由于关键词都是一个特定的、完整的学术词汇,有着特定的含义,所以将其拆开后将非常影响语义的准确性,因此采用关键字作为一个单独词汇的方法可以位语义搜索带来准确率的提升。
  4. 计算词汇权重:使用了两种方法来对词汇进行分度:TF-IDF以及各个词权重相同。如表三,结果基本没有差别,主要原因在于计算语义时重点考虑文章的关键字信息,而其对于论文语义的权重基本没有差别。
  5. 语义扩展:算法1的第4步对相关词进行了扩展,以提高查询的召回率,相关度阈值为0.65,如表五,结果基本符合要求。因此,利用该方法可以较准确地提取出语义上的相关词汇,从而扩展查询。

1.进一步讨论如何有效的利用摘要信息,进一步丰富论文的语义。

无