摘要: LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m;然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm);同样的文档中的所有词也会求 阅读全文
posted @ 2018-08-29 23:32 理想几岁 阅读(15487) 评论(0) 推荐(1)
摘要: 一、jieba分词功能 1、主要模式 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义 阅读全文
posted @ 2018-08-29 21:08 理想几岁 阅读(3914) 评论(1) 推荐(1)
摘要: 1、词向量建模的word2vec模型和用于长文本向量建模的doc2vec模型 在Gensim中实现word2vec模型非常简单。首先,我们需要将原始的训练语料转化成一个sentence的迭代器;每一次迭代返回的sentence是一个word(utf8格式)的列表: 接下来,我们用这个迭代器作为输入, 阅读全文
posted @ 2018-08-29 19:42 理想几岁 阅读(1911) 评论(0) 推荐(0)
摘要: 前一篇,word2vec(一)主要讲了word2vec一些表层概念,以及主要介绍CBOW方法来求解词向量模型,这里主要讲论文 Distributed Representations of Words and Phrases and their Compositionality中的skip-gram 阅读全文
posted @ 2018-08-29 03:15 理想几岁 阅读(948) 评论(0) 推荐(0)