左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

07 2019 档案

摘要:HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。 阅读全文

posted @ 2019-07-29 10:00 左手中倒影 阅读(442) 评论(0) 推荐(0)

摘要:本篇接上一篇内容《HanLP-基于HMM-Viterbi的人名识别原理介绍》介绍一下层叠隐马的原理。 首先说一下上一篇介绍的人名识别效果对比: 1. 只有Jieba识别出的人名 准确率极低,基本为地名或复杂地名组成部分或复杂机构名组成部分。举例如下: [1] 战乱的阿富汗地区,枪支可随意买卖,AK4 阅读全文

posted @ 2019-07-26 09:23 左手中倒影 阅读(409) 评论(0) 推荐(0)

摘要:Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用,部分内容有做修改。 本文主要介绍一下HanLP是如何利用HMM来做人 阅读全文

posted @ 2019-07-24 09:53 左手中倒影 阅读(267) 评论(0) 推荐(0)

摘要:文章整理自 baiziyu 的知乎专栏,感兴趣的朋友可以去关注下这位大神的专栏,很多关于自然语言处理的文章写的很不错。昨天看到他的分享的两篇关于朴素贝叶斯分类预测的文章,整理了一下分享给给大家,文章已做部分修改! 朴素贝叶斯分类时,最好取对数变相乘为相加,防止预测结果溢出。可能出现的badcase就 阅读全文

posted @ 2019-07-22 09:39 左手中倒影 阅读(388) 评论(0) 推荐(0)

摘要:HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。 类型1 数字+地名 [1] 暗访哈尔滨网约车:下10单来7辆“黑车” 1辆套牌 [2] 房天下每日成交5月12日 阅读全文

posted @ 2019-07-19 10:01 左手中倒影 阅读(315) 评论(0) 推荐(0)

摘要:Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意! 1.首先安装jpype 首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲 阅读全文

posted @ 2019-07-17 09:38 左手中倒影 阅读(1163) 评论(0) 推荐(0)

摘要:本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。 1、python与jdk版本位数一致 2、pip install jpype1(python3.5) 3、类库hanlp.jar包、模型data包、配置文件hanlp.properties 阅读全文

posted @ 2019-07-15 09:19 左手中倒影 阅读(2715) 评论(0) 推荐(0)

摘要:本篇分享一个hanlp添加自定义字典的方法,供大家参考! 总共分为两步: 第一步:将自定义的字典放到custom目录下,然后删除CustomDicionary.txt.bin,因为分词的时候会读这个文件。如果没有的话它会根据配置文件中路径去加载字典生成bin文件。 第二步:去配置文件把自己添加自定义 阅读全文

posted @ 2019-07-12 09:29 左手中倒影 阅读(1295) 评论(1) 推荐(0)

摘要:项目简要:关于java web的一个项目,用的Spring MVCd 框架。鉴于参与此次项目的人中并不是所人都做的Spring,为了能够提高效率,建议大家是先抛开SPring来写自己负责的模块,最后再把各个模块在Spring里面集成。 项目里有一个文本分析的模块是一个同学用hanlp写的,由于在最后 阅读全文

posted @ 2019-07-10 10:11 左手中倒影 阅读(235) 评论(0) 推荐(0)

摘要:前几天(6月28日),在第23届中国国际软件博览会上,hanlp这款自然语言处理工具荣获了“2019年第二十三届中国国际软件博览会优秀产品”。 HanLP是由一系列模型预算法组成的工具包,结合深度神经网络的分布式自然语言处理,具有功能完善、性能高效、架构清晰、语料时新、可自定义等特点,提供词法分析、 阅读全文

posted @ 2019-07-03 10:34 左手中倒影 阅读(2219) 评论(0) 推荐(0)

摘要:摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 Elasticsearch 默认分词 输出: IK分词 输出: hanlp分词 阅读全文

posted @ 2019-07-01 10:54 左手中倒影 阅读(993) 评论(0) 推荐(0)