随笔分类 - 【自然语言处理】 基础
摘要:使用pyhanlp创建词云去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云(你可能觉得这和wordcloud中官方文档中的中文词云的例子代码很像,不要误会,那个也是我写的)现在我们可以仿照之前的格式...
阅读全文
摘要:文本聚类文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。我们的聚类对象不是直接的文本本身,而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。前...
阅读全文
摘要:这一次我们需要利用HanLP进行文本分类与情感分析。同时这也是pyhanlp用户指南的倒数第二篇关于接口和Python实现的文章了,再之后就是导论,使用技巧汇总和几个实例落。真是可喜可贺啊。文本分类在HanLP中,文本分类与情感分析都是使用一个分类器,朴素贝...
阅读全文
摘要:文本推荐该部分的内容之所以在一起是因其底层原理相同。文本推荐,语义距离,同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码,发现功能实现原理非常之简单,就是根据文档与给定单词的距离进行打分,而这个...
阅读全文
摘要:依存句法分析器在HanLP中一共有两种句法分析器依存句法分析基于神经网络的高性能依存句法分析器MaxEnt依存句法分析基于神经网络的高性能依存句法分析器HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast...
阅读全文
摘要:繁简转换HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。说明HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“...
阅读全文
摘要:词性标注在HanLP的readme中有这样的一段话词性标注HMM词性标注(速度快)感知机词性标注、CRF词性标注(精度高)在之前的分词部分,我们已经发现了,在分词器中,默认是开启词性标注的,甚至想要获得没有词性标注的list还需要使用, HanLP.Conf...
阅读全文
摘要:简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析“”"一阶共性分析,也就是词频统计信...
阅读全文
摘要:关键词提取说明内部采用TextRankKeyword实现,用户可以直接调用TextRankKeyword.getKeywordList(document, size)算法详解《TextRank算法提取关键词的Java实现》部分内容如下谈起自动摘要算法,常见的...
阅读全文
摘要:pyhanlp中的命名实体识别对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“提取关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。首先是一个简单的例子,展示一下命名实体识别的效果。之后是正式内容:简单...
阅读全文
摘要:hanlp的词典模式之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。其核心词典形式如下:自定义词典自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加...
阅读全文
摘要:pyhanlp中的分词器简介pyhanlp实现的分词器有很多,同时pyhanlp获取hanlp中分词器也有两种方式第一种是直接从封装好的hanlp类中获取,这种获取方式一共可以获取五种分词器,而现在默认的就是第一种维特比分词器维特比 (viterbi):效率...
阅读全文
摘要:内容简介代码一,笔记简略版本代码二,词频统计与pandas集合,分词词性提取与词频统计结合代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# - * - coding: utf - ...
阅读全文
摘要:背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任务,如果你没有NLPIR那么你可以参考这篇文章NLPIR快速搭建,或...
阅读全文
摘要:前叙该文章写作共花费二十分钟,阅读只需要七分钟左右,读完该文章后,你将学会使用少量代码,将中文小说,中文新闻,或者其他任意一段中文文本生成词云图背景在进行汉语自然语言处理时候,经常使用的几个方法,分词,清除停用词,以及获取新词,为了方便使用我们将其封装. 这样我们就可...
阅读全文
摘要:Python Windows10汉语自然语言处理基本组件: 201707032018/01/16:Github长期更新,Windows,Linux通用
阅读全文
摘要:文章简介与更新记录如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件2017/07/04 更新了合并代码,添加了新的中文停用词表(哈工大扩展版本)...
阅读全文
摘要:在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。“Whole World in your Hand” — Betty Newman-Maguire (http://www....
阅读全文
摘要:前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置...
阅读全文
摘要:前叙该博文继承之前的文章,进一步介绍NLPIR2016的使用,三个内容(利用NLPIR 的发现新词功能自动提取文本内的新词汇,解决worldcloud中英文混合只显示中文的问题,NLPIR与worldcloud结合生成词云) 写作本博客需要一个小时,阅读需要十二分钟....
阅读全文

浙公网安备 33010602011771号