bbking

词向量-LRWE模型-更好地识别反义词同义词

摘要：上一节，我们介绍利用文本和知识库融合训练词向量的方法，如何更好的融合这些结构化知识呢？使得训练得到的词向量更具有泛化能力，能有效识别同义词反义词，又能学习到上下文信息还有不同级别的语义信息。基于上述目标，我们尝试基于CBOW模型，将知识库中抽取的知识融合共同训练，提出LRWE模型。模型的结构图如下阅读全文

posted @ 2017-07-04 17:29 bbking 阅读(5634) 评论(0) 推荐(1) 编辑

词向量-文本与知识库融合

摘要： 1. 关于词向量词向量是计算机将自然语言符号化的重要手段，通过把词或短语映射成低维的实数向量，以向量间的距离来衡量词语的相似性，可作为词语特征进行各项任务，在机器学习算法和自然语言处理中有着广泛应用。传统的语言模型(eg. Word2vec)是基于分布假设，使用无监督的方式，利用给定的语料库中词阅读全文

posted @ 2017-06-02 17:22 bbking 阅读(3591) 评论(1) 推荐(0) 编辑

word2vec + transE 知识表示模型

摘要：本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示，即将外部知识库信息（三元组）加入word2vec语言模型，作为正则项指导词向量的学习，将得到的词向量用于分类任务，效果有一定提升。一. word2vec 模型 word2vec 是 Google 在阅读全文

posted @ 2016-07-07 16:08 bbking 阅读(26339) 评论(14) 推荐(4) 编辑

Gensim LDA主题模型实验

摘要：本文利用gensim进行LDA主题模型实验，第一部分是基于前文的wiki语料，第二部分是基于Sogou新闻语料。 1. 基于wiki语料的LDA实验上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt，去停止词后可进行LDA实验。同时gensim也提供了对wiki压缩包直阅读全文

posted @ 2016-07-05 18:18 bbking 阅读(42915) 评论(6) 推荐(5) 编辑

Wiki语料处理

摘要：最近在做知识图谱相关工作，源数据主要来自百度百科，互动百科，中文维基百科等。其中中文维基百科提供数据库下载，下文主要讨论如何处理Wiki数据。 1. 中文维基数据下载下载dump：https://dumps.wikimedia.org/zhwiki/latest/，维基数据主要包含以下几部分 zh 阅读全文

posted @ 2016-07-02 21:22 bbking 阅读(23917) 评论(7) 推荐(3) 编辑

GPU 加速NLP任务（Theano+CUDA）

摘要：之前学习了CNN的相关知识，提到Yoon Kim(2014)的论文，利用CNN进行文本分类，虽然该CNN网络结构简单效果可观，但论文没有给出具体训练时间，这便值得进一步探讨。 Yoon Kim代码：https://github.com/yoonkim/CNN_sentence 利用作者提供的... 阅读全文

posted @ 2015-12-05 18:51 bbking 阅读(7361) 评论(0) 推荐(0) 编辑

SOJ 1717 Computer (单机任务调度)

摘要：一、题目描述 Constraints ：Time Limit: 2 secs, Memory Limit: 32 MB Description: We often hear that computer is a magic, a great invention, or even a marvel. 阅读全文

posted @ 2015-11-24 16:24 bbking 阅读(734) 评论(0) 推荐(0) 编辑

CNN for NLP (CS224D)

摘要：斯坦福课程CS224d: Deep Learning for Natural Language Processing lecture13：Convolutional neural networks -- for sentence classification 主要是学习笔记，卷积神经网络（CNN），阅读全文

posted @ 2015-11-19 14:43 bbking 阅读(7273) 评论(0) 推荐(3) 编辑

数据分析:中国高校更名历史 Python

摘要：上周领了新任务，做国内高校改名历史的统计，这个挺有意思，以下是我任务完成过程，和大家分享。一. 数据收集数据需求：目前已有高校校名，各高校改名历史记录高校校名数据来源：尝试从高校排名网站（iPIN），中国教育和科研计算机网等抓取，但高校名不全，前者709，后者1394，最后从教育部找到一... 阅读全文

posted @ 2015-07-18 20:46 bbking 阅读(2118) 评论(1) 推荐(2) 编辑

TextRank 自动文摘

摘要：前不久做了有关自动文摘的学习，采用方法是TextRank算法，整理和大家分享。一. 关于自动文摘利用计算机将大量的文本进行处理，产生简洁、精炼内容的过程就是文本摘要，人们可通过阅读摘要来把握文本主要内容，这不仅大大节省时间，更提高阅读效率。但人工摘要耗时又耗力，已不能满足日益增长的信息需求，因此阅读全文

posted @ 2015-06-25 19:45 bbking 阅读(14004) 评论(0) 推荐(0) 编辑

公告

导航