左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  hanlp

摘要:一、中文分词工具 (1)Jieba (2)snowNLP分词工具 (3)thulac分词工具 (4)pynlpir 分词工具 (5)StanfordCoreNLP分词工具 1.from stanfordcorenlp import StanfordCoreNLP 2.with StanfordCor 阅读全文

posted @ 2019-05-31 10:14 左手中倒影 阅读(994) 评论(0) 推荐(0)

摘要:以下分词工具均能在Python环境中直接调用(排名不分先后)。 1、jieba(结巴分词) 免费使用 2、HanLP(汉语言处理包) 免费使用 3、SnowNLP(中文的类库) 免费使用 4、FoolNLTK(中文处理工具包) 免费使用 5、Jiagu(甲骨NLP) 免费使用 6、pyltp(哈工大 阅读全文

posted @ 2019-05-29 09:37 左手中倒影 阅读(503) 评论(0) 推荐(0)

摘要:在进行文本分类(非情感分类)时,我们经常只保留实词(名、动、形)等词,为了文本分类的分词方便,HanLP专门提供了实词分词器类NotionalTokenizer,同时在分类数据集加载处理时,默认使用了NotionalTokenizer分词器。 在HanLPJava版代码库中可以查看下边的文件中的函数 阅读全文

posted @ 2019-05-27 10:07 左手中倒影 阅读(907) 评论(0) 推荐(0)

摘要:停用词表的修改 停用词表在“pyhanlp\static\data\dictionary”路径下的“stopwords.txt”文件中,CoreStopWordDictionary.apply方法支持去除停用词。如果需要修改停用词表,则直接编辑文件“stopwords.txt”,之后删除路径下的“s 阅读全文

posted @ 2019-05-22 09:03 左手中倒影 阅读(2649) 评论(0) 推荐(0)

摘要:作者:baiziyu 关于hanlp的文章已经分享过很多,似乎好像大部分以理论性的居多。最近有在整理一些hanlp应用项目中的文章,待整理完成后会陆续分享出来。本篇分享的依然是由baiziyu 分享的一篇文章,感兴趣的可以在知乎上关注下他的专栏,写的还是挺好的! 以下为文章的主要内容: 自定义词表的 阅读全文

posted @ 2019-05-20 09:09 左手中倒影 阅读(187) 评论(0) 推荐(0)

摘要:Pyhanlp分词与词性标注的相关内容记得此前是有分享过的。可能时间太久记不太清楚了。以下文章是分享自“baiziyu”所写(小部分内容有修改),供大家学习参考之用。 简介 pyhanlp是HanLP的Python接口。因此后续所有关于pyhanlp的文章中也会写成HanLP。HanLP是完全用Ja 阅读全文

posted @ 2019-05-18 09:50 左手中倒影 阅读(436) 评论(0) 推荐(0)

摘要:本篇给大家分享baiziyu 写的HanLP 中的N-最短路径分词。以为下分享的原文,部分地方有稍作修改,内容仅供大家学习交流! 首先说明在HanLP对外提供的接口中没有使用N-最短路径分词器的,作者在官网中写到这个分词器对于实体识别来说会比最短路径分词稍好,但是它的速度会很慢。对此我有点个人看法, 阅读全文

posted @ 2019-05-17 09:25 左手中倒影 阅读(339) 评论(0) 推荐(0)

摘要:HanLP 1.7.3 发布了。HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP 具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP 内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典 阅读全文

posted @ 2019-05-10 09:24 左手中倒影 阅读(165) 评论(0) 推荐(0)

摘要:使用 HanLP - 汉语言处理包 来处理,他能处理很多事情,如分词、调用分词器、命名实体识别、人名识别、地名识别、词性识别、篇章理解、关键词提取、简繁拼音转换、拼音转换、根据输入智能推荐、自定义分词器 使用很简单,只要引入hanlp.jar包,便可处理(新版本的hanlp安装包可以去github下 阅读全文

posted @ 2019-05-06 10:18 左手中倒影 阅读(2836) 评论(0) 推荐(0)

摘要:基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x; 内置词典,无需额外配置即可使用; 支持用户自定义词典; 支持远程词典热更新(待开发); 内置多种分词模式,适合不同场景; 拼音过滤器(待开发); 简繁体转换过滤器(待开发)。 版本 插件版本和 阅读全文

posted @ 2019-04-22 13:19 左手中倒影 阅读(586) 评论(0) 推荐(0)

摘要:文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能。 语料库选取1998年01月的人民日报语料库。199801人民日报语料 该词库带有词性标注,为了遵循LTP的训练数据集格式,需要处理掉词性标 阅读全文

posted @ 2019-04-19 10:08 左手中倒影 阅读(427) 评论(0) 推荐(0)

摘要:基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统。 阅读全文

posted @ 2019-04-15 09:44 左手中倒影 阅读(711) 评论(0) 推荐(0)

摘要:HanLP的Python接口,支持自动下载与升级HanLP,兼容py2、py3。 安装 pip install pyhanlp 使用命令hanlp来验证安装,如因网络等原因自动安装失败,可参考手动配置或Windows指南。 命令行 中文分词 使用命令hanlp segment进入交互分词模式,输入一 阅读全文

posted @ 2019-04-12 10:25 左手中倒影 阅读(1180) 评论(0) 推荐(0)

摘要:本章是接前两篇《分词工具Hanlp基于感知机的中文分词框架》和《基于结构化感知机的词性标注与命名实体识别框架》的。本系统将同时进行中文分词、词性标注与命名实体识别3个任务的子系统称为“词法分析器”。 阅读全文

posted @ 2019-04-10 09:57 左手中倒影 阅读(621) 评论(0) 推荐(0)

摘要:结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。 阅读全文

posted @ 2019-04-03 10:26 左手中倒影 阅读(558) 评论(0) 推荐(0)

摘要:由于项目需要在Android手机设备上实现汉字转拼音功能(支持多音字),于是首先想到了Pinyin4j+多音字映射对照表的实现方案,并在项目中试用了一段时间,发现数据量大时,其耗时非常严重。后来寻找其他方案,在github上找到了HanLP开源库,其多音字转换速度非常快,但是没有针对Android平 阅读全文

posted @ 2019-04-01 13:54 左手中倒影 阅读(254) 评论(0) 推荐(0)

摘要:汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明: l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 l HanLP能够识别多音字,也能给繁体中文注拼音。 l 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArr 阅读全文

posted @ 2019-03-29 13:02 左手中倒影 阅读(26) 评论(0) 推荐(0)

摘要:HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 阅读全文

posted @ 2019-03-29 10:15 左手中倒影 阅读(197) 评论(0) 推荐(0)

摘要:Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。 阅读全文

posted @ 2019-03-22 09:23 左手中倒影 阅读(188) 评论(0) 推荐(0)

摘要:1、hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 开源网址:HanLP: Han Language Processing 但由于hanlp是用 阅读全文

posted @ 2019-03-20 10:19 左手中倒影 阅读(565) 评论(0) 推荐(0)