左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

01 2019 档案

摘要:过程分析 1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件 2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常,然后加载词典 阅读全文

posted @ 2019-01-27 09:53 左手中倒影 阅读(407) 评论(0) 推荐(0)

摘要:在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下: 一,在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录 位于D:\hnlp\hanlp 阅读全文

posted @ 2019-01-25 09:46 左手中倒影 阅读(256) 评论(0) 推荐(0)

摘要:问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以 阅读全文

posted @ 2019-01-23 09:50 左手中倒影 阅读(278) 评论(0) 推荐(0)

摘要:本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作 阅读全文

posted @ 2019-01-21 09:56 左手中倒影 阅读(443) 评论(0) 推荐(0)

摘要:此文整理的基础是建立在hanlp较早版本的基础上的,虽然hanlp的最新1.7版本已经发布,但对于入门来说差别不大!分享一篇比较早的“旧文”给需要的朋友! 阅读全文

posted @ 2019-01-18 10:26 左手中倒影 阅读(645) 评论(0) 推荐(0)

摘要:这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s 阅读全文

posted @ 2019-01-16 11:25 左手中倒影 阅读(296) 评论(0) 推荐(0)

摘要:最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。 阅读全文

posted @ 2019-01-14 09:56 左手中倒影 阅读(442) 评论(0) 推荐(0)

摘要:文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体,能有效提高工作效率和挖掘实体之间的潜在联系。 阅读全文

posted @ 2019-01-11 13:34 左手中倒影 阅读(1834) 评论(1) 推荐(0)

摘要:谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。 阅读全文

posted @ 2019-01-09 10:08 左手中倒影 阅读(340) 评论(0) 推荐(0)

摘要:如果想要只获取词性也是可以的,因为原分词器返回的是Java中的ArrayList属性,list中的每个单元都是一个term类,因此我们也可以通过获取term中的word字段来直接获取词语,或者nature属性,直接获取词性。这一特征,我们在之后也会用到。 阅读全文

posted @ 2019-01-07 10:14 左手中倒影 阅读(1277) 评论(0) 推荐(0)

摘要:HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。 阅读全文

posted @ 2019-01-04 09:47 左手中倒影 阅读(733) 评论(0) 推荐(0)

摘要:【环境】python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp # 安装pyhanlp 进入python安装包路径,如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.pr 阅读全文

posted @ 2019-01-02 09:48 左手中倒影 阅读(880) 评论(0) 推荐(0)