FontTian - 博客园

摘要：使用pyhanlp创建词云去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云（你可能觉得这和wordcloud中官方文档中的中文词云的例子代码很像，不要误会，那个也是我写的）现在我们可以仿照之前的格式... 阅读全文

posted @ 2018-09-25 22:19 FontTian 阅读(1333) 评论(0) 推荐(0) 编辑

摘要：文本聚类文本聚类简单点的来说就是将文本视作一个样本，在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。我们的聚类对象不是直接的文本本身，而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。前... 阅读全文

posted @ 2018-09-25 21:27 FontTian 阅读(1213) 评论(0) 推荐(0) 编辑

摘要：这一次我们需要利用HanLP进行文本分类与情感分析。同时这也是pyhanlp用户指南的倒数第二篇关于接口和Python实现的文章了,再之后就是导论，使用技巧汇总和几个实例落。真是可喜可贺啊。文本分类在HanLP中，文本分类与情感分析都是使用一个分类器，朴素贝... 阅读全文

posted @ 2018-09-24 20:27 FontTian 阅读(3570) 评论(0) 推荐(0) 编辑

摘要：文本推荐该部分的内容之所以在一起是因其底层原理相同。文本推荐，语义距离，同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码，发现功能实现原理非常之简单，就是根据文档与给定单词的距离进行打分，而这个... 阅读全文

posted @ 2018-09-24 18:00 FontTian 阅读(2211) 评论(1) 推荐(0) 编辑

摘要：依存句法分析器在HanLP中一共有两种句法分析器依存句法分析基于神经网络的高性能依存句法分析器MaxEnt依存句法分析基于神经网络的高性能依存句法分析器HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文（A Fast... 阅读全文

posted @ 2018-09-24 13:41 FontTian 阅读(1711) 评论(0) 推荐(0) 编辑

摘要：繁简转换HanLP几乎实现了所有我们需要的繁简转换方式，并且已经封装到了HanLP中，使得我们可以轻松的使用，而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。说明HanLP能够识别简繁分歧词，比如打印机=印表機。许多简繁转换工具不能区分“... 阅读全文

posted @ 2018-09-24 13:39 FontTian 阅读(600) 评论(0) 推荐(0) 编辑

摘要：词性标注在HanLP的readme中有这样的一段话词性标注HMM词性标注（速度快）感知机词性标注、CRF词性标注（精度高）在之前的分词部分，我们已经发现了，在分词器中，默认是开启词性标注的，甚至想要获得没有词性标注的list还需要使用， HanLP.Conf... 阅读全文

posted @ 2018-09-23 20:28 FontTian 阅读(1895) 评论(0) 推荐(0) 编辑

摘要：简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是文本分词进行共性分析。在作者的原文中，有几个问题，为了便于说明，这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析“”"一阶共性分析，也就是词频统计信... 阅读全文

posted @ 2018-09-23 19:23 FontTian 阅读(1332) 评论(0) 推荐(0) 编辑

摘要：关键词提取说明内部采用TextRankKeyword实现，用户可以直接调用TextRankKeyword.getKeywordList(document, size)算法详解《TextRank算法提取关键词的Java实现》部分内容如下谈起自动摘要算法，常见的... 阅读全文

posted @ 2018-09-21 21:48 FontTian 阅读(3670) 评论(0) 推荐(0) 编辑

摘要： pyhanlp中的命名实体识别对于分词而言，命名实体识别是一项非常重要的功能，当然发现新词同样重要（这部分内容被我放在之后的“提取关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。首先是一个简单的例子，展示一下命名实体识别的效果。之后是正式内容：简单... 阅读全文

posted @ 2018-09-20 21:54 FontTian 阅读(2535) 评论(0) 推荐(0) 编辑

FontTian的专栏