左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

03 2019 档案

摘要:汉字转拼音 HanLP中的汉字转拼音功能也十分的强大。 说明: l HanLP不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。 l HanLP能够识别多音字,也能给繁体中文注拼音。 l 最重要的是,HanLP采用的模式匹配升级到AhoCorasickDoubleArr 阅读全文

posted @ 2019-03-29 13:02 左手中倒影 阅读(26) 评论(0) 推荐(0)

摘要:HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 阅读全文

posted @ 2019-03-29 10:15 左手中倒影 阅读(200) 评论(0) 推荐(0)

摘要:N-最短路径 是中科院分词工具NLPIR进行分词用到的一个重要算法,张华平、刘群老师在论文《基于N-最短路径方法的中文词语粗分模型》中做了比较详细的介绍。该算法算法基本思想很简单,就是给定一待处理字串,根据词典,找出词典中所有可能的词,构造出字串的一个有向无环图,算出从开始到结束所有路径中最短的前N条路径。因为允许相等长度的路径并列,故最终的结果集合会大于或等于N。 阅读全文

posted @ 2019-03-25 13:03 左手中倒影 阅读(185) 评论(0) 推荐(0)

摘要:Hanlp1.7版本在去年下半年的时候就随大快的DKH1.6版本同时发布了,截至目前1.7大版本也更新到了1.7.1了。本篇分别就1.7.0和1.7.1中新增的功能做一个简单的汇总介绍。 阅读全文

posted @ 2019-03-22 09:23 左手中倒影 阅读(188) 评论(0) 推荐(0)

摘要:1、hanlp简介 HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 开源网址:HanLP: Han Language Processing 但由于hanlp是用 阅读全文

posted @ 2019-03-20 10:19 左手中倒影 阅读(567) 评论(0) 推荐(0)

摘要:我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作,下面我们就看一下具体的步骤 阅读全文

posted @ 2019-03-18 14:10 左手中倒影 阅读(158) 评论(0) 推荐(0)

摘要:使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。 阅读全文

posted @ 2019-03-15 10:46 左手中倒影 阅读(319) 评论(0) 推荐(0)

摘要:词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这句话 阅读全文

posted @ 2019-03-13 10:44 左手中倒影 阅读(453) 评论(0) 推荐(0)

摘要:新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨天正好看到的这篇关于关于1.7.0版本hanlp分词在spark中的使用介绍的文章,顺便分享给大家一起学习一下! 阅读全文

posted @ 2019-03-11 11:58 左手中倒影 阅读(334) 评论(0) 推荐(0)

摘要:Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下! 阅读全文

posted @ 2019-03-08 10:18 左手中倒影 阅读(458) 评论(0) 推荐(0)

摘要:master分支 对于master分支,编译方法如下: git clone https://github.com/hankcs/HanLP.git mvn install -DskipTests ·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。 ·该方法不会将src/ 阅读全文

posted @ 2019-03-06 11:32 左手中倒影 阅读(261) 评论(0) 推荐(0)

摘要:关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。 阅读全文

posted @ 2019-03-04 09:00 左手中倒影 阅读(574) 评论(0) 推荐(0)

摘要:如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 阅读全文

posted @ 2019-03-01 08:59 左手中倒影 阅读(211) 评论(0) 推荐(0)