随笔分类 -  自然语言处理

NLP
词向量-LRWE模型-更好地识别反义词同义词
摘要:上一节,我们介绍利用文本和知识库融合训练词向量的方法,如何更好的融合这些结构化知识呢?使得训练得到的词向量更具有泛化能力,能有效识别同义词反义词,又能学习到上下文信息还有不同级别的语义信息。 基于上述目标,我们尝试基于CBOW模型,将知识库中抽取的知识融合共同训练,提出LRWE模型。模型的结构图如下 阅读全文

posted @ 2017-07-04 17:29 bbking 阅读(5634) 评论(0) 推荐(1) 编辑

词向量-文本与知识库融合
摘要:1. 关于词向量 词向量是计算机将自然语言符号化的重要手段,通过把词或短语映射成低维的实数向量,以向量间的距离来衡量词语的相似性,可作为词语特征进行各项任务,在机器学习算法和自然语言处理中有着广泛应用。 传统的语言模型(eg. Word2vec)是基于分布假设,使用无监督的方式,利用给定的语料库中词 阅读全文

posted @ 2017-06-02 17:22 bbking 阅读(3591) 评论(1) 推荐(0) 编辑

word2vec + transE 知识表示模型
摘要:本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,作为正则项指导词向量的学习,将得到的词向量用于分类任务,效果有一定提升。 一. word2vec 模型 word2vec 是 Google 在 阅读全文

posted @ 2016-07-07 16:08 bbking 阅读(26339) 评论(14) 推荐(4) 编辑

Gensim LDA主题模型实验
摘要:本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验 上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。 同时gensim也提供了对wiki压缩包直 阅读全文

posted @ 2016-07-05 18:18 bbking 阅读(42915) 评论(6) 推荐(5) 编辑

Wiki语料处理
摘要:最近在做知识图谱相关工作,源数据主要来自百度百科,互动百科,中文维基百科等。其中中文维基百科提供数据库下载,下文主要讨论如何处理Wiki数据。 1. 中文维基数据下载 下载dump:https://dumps.wikimedia.org/zhwiki/latest/,维基数据主要包含以下几部分 zh 阅读全文

posted @ 2016-07-02 21:22 bbking 阅读(23917) 评论(7) 推荐(3) 编辑

GPU 加速NLP任务(Theano+CUDA)
摘要:之前学习了CNN的相关知识,提到Yoon Kim(2014)的论文,利用CNN进行文本分类,虽然该CNN网络结构简单效果可观,但论文没有给出具体训练时间,这便值得进一步探讨。 Yoon Kim代码:https://github.com/yoonkim/CNN_sentence 利用作者提供的... 阅读全文

posted @ 2015-12-05 18:51 bbking 阅读(7361) 评论(0) 推荐(0) 编辑

CNN for NLP (CS224D)
摘要:斯坦福课程CS224d: Deep Learning for Natural Language Processing lecture13:Convolutional neural networks -- for sentence classification 主要是学习笔记,卷积神经网络(CNN), 阅读全文

posted @ 2015-11-19 14:43 bbking 阅读(7273) 评论(0) 推荐(3) 编辑

TextRank 自动文摘
摘要:前不久做了有关自动文摘的学习,采用方法是TextRank算法,整理和大家分享。 一. 关于自动文摘 利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此 阅读全文

posted @ 2015-06-25 19:45 bbking 阅读(14004) 评论(0) 推荐(0) 编辑

导航