随笔分类 - 0083. 自然语言处理

摘要: 在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度,使用gensim来学习word2vec。 1. gensim安装与概述 gensim是一阅读全文
posted @ 2017-08-03 14:12 刘建平Pinard 阅读(37355) | 评论 (59) 编辑
摘要: word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling的模型 在上一篇中我们讲到了基于Hierarchical Softmax的word2ve阅读全文
posted @ 2017-07-28 15:56 刘建平Pinard 阅读(38655) | 评论 (87) 编辑
摘要: word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling的模型 在word2vec原理(一) CBOW与Skip-Gram模型基础中,我们讲到了阅读全文
posted @ 2017-07-27 17:26 刘建平Pinard 阅读(55744) | 评论 (224) 编辑
摘要: word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sampling的模型 word2vec是google在2013年推出的一个NLP工具,它的特点是将所有阅读全文
posted @ 2017-07-13 16:34 刘建平Pinard 阅读(134323) | 评论 (66) 编辑
摘要: 条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估标记序列概率 条件随机场CRF(三) 模型学习与维特比算法解码 在CRF系列的前两篇,我们总结了CRF的模型基础与第一个问题的求解方法,本文我们关注于linear-CRF的第二个问题与第三个问题的求解。第二个问阅读全文
posted @ 2017-06-23 15:10 刘建平Pinard 阅读(10817) | 评论 (33) 编辑
摘要: 条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估标记序列概率 条件随机场CRF(三) 模型学习与维特比算法解码 在条件随机场CRF(一)中我们总结了CRF的模型,主要是linear-CRF的模型原理。本文就继续讨论linear-CRF需要解决的三个问题:评估阅读全文
posted @ 2017-06-22 14:14 刘建平Pinard 阅读(8860) | 评论 (32) 编辑
摘要: 条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估标记序列概率 条件随机场CRF(三) 模型学习与维特比算法解码 条件随机场(Conditional Random Fields, 以下简称CRF)是给定一组输入序列条件下另一组输出序列的条件概率分布模型,在自然阅读全文
posted @ 2017-06-19 17:32 刘建平Pinard 阅读(21200) | 评论 (63) 编辑
摘要: 在之前的HMM系列中,我们对隐马尔科夫模型HMM的原理以及三个问题的求解方法做了总结。本文我们就从实践的角度用Python的hmmlearn库来学习HMM的使用。关于hmmlearn的更多资料在官方文档有介绍。 1. hmmlearn概述 hmmlearn安装很简单,"pip install hmm阅读全文
posted @ 2017-06-13 16:24 刘建平Pinard 阅读(20394) | 评论 (64) 编辑
摘要: 隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列 在本篇我们会讨论HMM模型最后一个问题的求解,即即给定模型和观测序列,求给定观测序列条件下,最阅读全文
posted @ 2017-06-12 16:57 刘建平Pinard 阅读(11497) | 评论 (24) 编辑
摘要: 隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列 在本篇我们会讨论HMM模型参数求解的问题,这个问题在HMM三个问题里算是最复杂的。在研究这个问阅读全文
posted @ 2017-06-10 21:25 刘建平Pinard 阅读(12514) | 评论 (53) 编辑
摘要: 隐马尔科夫模型HMM(一)HMM模型 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列 在隐马尔科夫模型HMM(一)HMM模型中,我们讲到了HMM模型的基础知识和HMM的三个基本问题阅读全文
posted @ 2017-06-08 08:47 刘建平Pinard 阅读(18679) | 评论 (29) 编辑
摘要: 隐马尔科夫模型HMM(一)HMM模型基础 隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率 隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列 隐马尔科夫模型(Hidden Markov Model,以下简称HMM)是比较经典的机器学阅读全文
posted @ 2017-06-06 15:01 刘建平Pinard 阅读(42224) | 评论 (18) 编辑
摘要: 在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库,使用的原理基本类似,本文关注于scikit-learn中LDA主题模型的使用阅读全文
posted @ 2017-05-26 15:23 刘建平Pinard 阅读(26323) | 评论 (53) 编辑
摘要: 文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法 本文是LDA主题模型的第三篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了EM算法,如果你对EM算法不熟悉,建议阅读全文
posted @ 2017-05-22 12:20 刘建平Pinard 阅读(10912) | 评论 (72) 编辑
摘要: 文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法 本文是LDA主题模型的第二篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了基于MCMC的Gibbs采样算法,如果阅读全文
posted @ 2017-05-18 10:43 刘建平Pinard 阅读(22369) | 评论 (100) 编辑
摘要: 文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法 在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet阅读全文
posted @ 2017-05-17 14:37 刘建平Pinard 阅读(80418) | 评论 (48) 编辑
摘要: 在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题。这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解,但是计算量和处理速度则比LSI快,它是怎么做到的呢? 1. 非负矩阵分解(NMF)概述 非负矩阵分阅读全文
posted @ 2017-05-05 14:19 刘建平Pinard 阅读(11605) | 评论 (7) 编辑
摘要: 在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。 1. 文本主题模型的问题特点 在数据分析中,我们经常会进行非监督学习的聚类算法,它可以对我们的特征数据进行非监督的聚类。而主题模型阅读全文
posted @ 2017-05-04 14:40 刘建平Pinard 阅读(16288) | 评论 (27) 编辑
摘要: 在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结。 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文文阅读全文
posted @ 2017-04-24 15:12 刘建平Pinard 阅读(11660) | 评论 (8) 编辑
摘要: 在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。 1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接阅读全文
posted @ 2017-04-21 16:58 刘建平Pinard 阅读(29376) | 评论 (57) 编辑
摘要: 在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足 在将文本分词并向量化后,我们可以得到词汇表中每个词在各阅读全文
posted @ 2017-04-11 14:58 刘建平Pinard 阅读(44782) | 评论 (29) 编辑
摘要: 在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例Hash Trick预处理方法做一个总结。 1. 词袋模型 在讲向量化与Hash Trick阅读全文
posted @ 2017-04-10 14:56 刘建平Pinard 阅读(14580) | 评论 (25) 编辑
摘要: 在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的阅读全文
posted @ 2017-04-07 14:49 刘建平Pinard 阅读(19352) | 评论 (45) 编辑