只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2019-05-28 17:31 磐石柳枝 阅读(3) 评论(0) 推荐(0) 编辑
摘要: Python NLP入门教程 http://www.spiderpy.cn/blog/detail/30 github: https://github.com/jhao104/django-blog 2017年9月29日 j_hao104 4条 7684 2017年9月29日 j_hao104 4条 阅读全文
posted @ 2019-04-27 13:58 磐石柳枝 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 一,文本摘要概述 文本自动摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。 代表系统有: 密歇根大学的NewsInEssence。 哥伦比亚大学的NewsBlaster。 二,文本摘要分类 三,文本摘要方法 三种摘要方法 抽取式摘要:直接从原文中抽取已有的句子组成 阅读全文
posted @ 2019-04-25 09:44 磐石柳枝 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 本文是LDA主题模型的第三篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了EM算法,如果你对EM算法不熟悉,建议先熟悉EM算法的主要思想。LDA的变分推断EM算法求解,应用于Spark MLlib和Scikit-learn的LDA算法实现,因此值得好好理解。 1. 变分 阅读全文
posted @ 2018-12-04 11:54 磐石柳枝 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 本文是LDA主题模型的第二篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了基于MCMC的Gibbs采样算法,如果你对MCMC和Gibbs采样不熟悉,建议阅读之前写的MCMC系列MCMC(四)Gibbs采样。 1. Gibbs采样算法求解LDA的思路 首先,回顾LDA的模 阅读全文
posted @ 2018-12-04 11:51 磐石柳枝 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题。这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解,但是计算量和处理速度则比LSI快,它是怎么做到的呢? 1. 非负矩阵分解(NMF)概述 非负矩阵分 阅读全文
posted @ 2018-12-04 11:45 磐石柳枝 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 在前面我们讲到了基于矩阵分解的LSI和NMF主题模型,这里我们开始讨论被广泛使用的主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)。注意机器学习还有一个LDA,即线性判别分析,主要是用于降维和分类的,如果大家需要了解这个LDA的信息,参看之前写的线 阅读全文
posted @ 2018-12-04 11:43 磐石柳枝 阅读(1789) 评论(0) 推荐(0) 编辑