左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  hanlp

摘要:前几天的召开的2019年大数据生态产业大会不知道大家关注到没有,看到消息是hanlp2.0版本发布了。不知道hanlp2.0版本又将带来哪些新的变化?准备近期看能够拿到一些hanlp2.0的资料,如果能顺利拿到的话,到时候分享给大家!今天分享这篇是关于将hanlp封装到web services服务中 阅读全文

posted @ 2019-08-09 09:39 左手中倒影 阅读(299) 评论(0) 推荐(0)

摘要:HanLP发射矩阵词典nr.txt中收录单字姓氏393个。袁义达在《中国的三大姓氏是如何统计出来的》文献中指出:当代中国100个常见姓氏中,集中了全国人口的87%,根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色,其他词语去掉其姓氏角色状态。过滤后,nr.txt中具有姓氏角色的单字共 阅读全文

posted @ 2019-08-02 09:37 左手中倒影 阅读(634) 评论(0) 推荐(0)

摘要:人名识别 在HanLP中,基于角色标注识别了中国人名。首先系统利用隐马尔可夫模型标注每个词语的角色,之后利用最大模式匹配法对角色序列进行匹配,匹配上模式的即为人名。理论指导文章为:《基于角色标注的中国人名自动识别研究》,大家可以百度一下看看 地名识别 理论指导文章为:《基于层叠隐马尔可夫模型的中文命 阅读全文

posted @ 2019-07-31 09:55 左手中倒影 阅读(280) 评论(0) 推荐(0)

摘要:HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。 阅读全文

posted @ 2019-07-29 10:00 左手中倒影 阅读(442) 评论(0) 推荐(0)

摘要:本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。 首先说一下上一篇介绍的人名识别效果对比: 1. 只有Jieba识别出的人名 准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下: [1] 战乱的阿富汗地区,枪支可随意买卖,AK4 阅读全文

posted @ 2019-07-26 09:23 左手中倒影 阅读(408) 评论(0) 推荐(0)

摘要:Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用,部分内容有做修改。 本文主要介绍一下HanLP是如何利用HMM来做人 阅读全文

posted @ 2019-07-24 09:53 左手中倒影 阅读(267) 评论(0) 推荐(0)

摘要:文章整理自 baiziyu 的知乎专栏,感兴趣的朋友可以去关注下这位大神的专栏,很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于朴素贝叶斯分类预测的文章,整理了一下分享给给大家,文章已做部分修改! 朴素贝叶斯分类时,最好取对数变相乘为相加,防止预测结果溢出。可能出现的badcase就 阅读全文

posted @ 2019-07-22 09:39 左手中倒影 阅读(387) 评论(0) 推荐(0)

摘要:Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意! 1.首先安装jpype 首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲 阅读全文

posted @ 2019-07-17 09:38 左手中倒影 阅读(1162) 评论(0) 推荐(0)

摘要:本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。 1、python与jdk版本位数一致 2、pip install jpype1(python3.5) 3、类库hanlp.jar包、模型data包、配置文件hanlp.properties 阅读全文

posted @ 2019-07-15 09:19 左手中倒影 阅读(2713) 评论(0) 推荐(0)

摘要:本篇分享一个hanlp添加自定义字典的方法,供大家参考! 总共分为两步: 第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。 第二步:去配置文件把自己添加自定义 阅读全文

posted @ 2019-07-12 09:29 左手中倒影 阅读(1294) 评论(1) 推荐(0)

摘要:前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。 HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、 阅读全文

posted @ 2019-07-03 10:34 左手中倒影 阅读(2215) 评论(0) 推荐(0)

摘要:摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 Elasticsearch 默认分词 输出: IK分词 输出: hanlp分词 阅读全文

posted @ 2019-07-01 10:54 左手中倒影 阅读(992) 评论(0) 推荐(0)

摘要:繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 ·说明 · HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字 阅读全文

posted @ 2019-06-28 09:27 左手中倒影 阅读(235) 评论(0) 推荐(0)

摘要:基于字标注法的分词 中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。 1. 2-tag法 2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标 阅读全文

posted @ 2019-06-26 09:45 左手中倒影 阅读(284) 评论(0) 推荐(0)

摘要:中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。 阅读全文

posted @ 2019-06-24 10:11 左手中倒影 阅读(295) 评论(0) 推荐(0)

摘要:一、Ansj 1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效: 比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。 (2)当自定义词库 “不好用”时,分词结果为:“不好用”,即此时自定义词库有效。 3 阅读全文

posted @ 2019-06-21 13:33 左手中倒影 阅读(410) 评论(0) 推荐(0)

摘要:分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后 阅读全文

posted @ 2019-06-19 10:03 左手中倒影 阅读(1504) 评论(0) 推荐(0)

摘要:本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。 阅读全文

posted @ 2019-06-17 09:46 左手中倒影 阅读(961) 评论(0) 推荐(0)

摘要:今天介绍的内容是最短路径分词。最近换回了thinkpad x1,原因是mac的13.3寸的屏幕看代码实在是不方便,也可能是人老了吧,^_^。等把HanLP词法分析介绍结束后,还是会换回macbook pro的。个人有强迫症,只要看或写Java或C/C++代码或者用开发机的化,还是喜欢在windows 阅读全文

posted @ 2019-06-05 10:35 左手中倒影 阅读(344) 评论(0) 推荐(0)

摘要:一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInte 阅读全文

posted @ 2019-06-03 10:23 左手中倒影 阅读(944) 评论(0) 推荐(0)