2019 年 1月随笔档案 - 左手中倒影

自然语言处理工具hanlp自定义词汇添加图解

摘要：过程分析 1.添加新词需要确定无缓存文件，否则无法使用成功，因为词典会优先加载缓存文件 2.再确认缓存文件不在时，打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件，这时会报一个找不到缓存文件的异常，不用管，因为加载词典进入内存是会优先加载缓存，缓存不在当然会报异常，然后加载词典阅读全文

posted @ 2019-01-27 09:53 左手中倒影阅读(407) 评论(0) 推荐(0)

在Hanlp词典手动添加未登录词的方式介绍

摘要：在使用Hanlp词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，下面我们来看一下：一，在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录位于D:\hnlp\hanlp 阅读全文

posted @ 2019-01-25 09:46 左手中倒影阅读(256) 评论(0) 推荐(0)

如何使用Hanlp加载大字典

摘要：问题因为需要加载一个近 1G 的字典到Hanlp中，一开始使用了CustomDictionay.add() 方法来一条条的加载，果然到了中间，维护DoubleArraTre 的成本太高，添加一个节点，都会很长时间，本来时间长一点没有关系，只要训练出.bin 的文件，第二次加载就会很快，然而作为以阅读全文

posted @ 2019-01-23 09:50 左手中倒影阅读(278) 评论(0) 推荐(0)

spark集群使用hanlp进行分布式分词操作说明

摘要：本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作阅读全文

posted @ 2019-01-21 09:56 左手中倒影阅读(443) 评论(0) 推荐(0)

自然语言处理hanlp的入门基础

摘要：此文整理的基础是建立在hanlp较早版本的基础上的，虽然hanlp的最新1.7版本已经发布，但对于入门来说差别不大！分享一篇比较早的“旧文”给需要的朋友！阅读全文

posted @ 2019-01-18 10:26 左手中倒影阅读(645) 评论(0) 推荐(0)

基于CRF序列标注的中文依存句法分析器的Java实现

摘要：这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》，分析速度翻了一倍，达到了1262.8655 sent/s 阅读全文

posted @ 2019-01-16 11:25 左手中倒影阅读(296) 评论(0) 推荐(0)

基于结构化平均感知机的分词器Java实现

摘要：最近高产似母猪，写了个基于AP的中文分词器，在Bakeoff-05的MSR语料上F值有96.11%。最重要的是，只训练了5个迭代；包含语料加载等IO操作在内，整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后，F值才下降不到0.1个百分点，体积控制在11兆。如果训练一百个迭代，F值可达到96.31%，训练时间两分多钟。阅读全文

posted @ 2019-01-14 09:56 左手中倒影阅读(442) 评论(0) 推荐(0)

HanLP分词命名实体提取详解

摘要：文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。对于文本来说，由于语言组织形式各异，表达方式多样，文本里面提到的很多要素，如人名、手机号、组织名、地名等都称之为实体。在工程领域，招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体，能有效提高工作效率和挖掘实体之间的潜在联系。阅读全文

posted @ 2019-01-11 13:34 左手中倒影阅读(1834) 评论(1) 推荐(0)

HanLP极致简繁转换详细讲解

摘要：谈起简繁转换，许多人以为是小意思，按字转换就行了。事实上，汉语历史悠久，地域复杂，发展至今在字符级别存在“一简对多繁”和“一繁对多简”，在词语级别上存在“简繁分歧词”，在港澳台等地则存在“字词习惯不同”的情况。为此，HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能，力图将简繁转换做到极致。阅读全文

posted @ 2019-01-09 10:08 左手中倒影阅读(340) 评论(0) 推荐(0)

pyhanlp 中文词性标注与分词简介

摘要：如果想要只获取词性也是可以的，因为原分词器返回的是Java中的ArrayList属性，list中的每个单元都是一个term类，因此我们也可以通过获取term中的word字段来直接获取词语，或者nature属性，直接获取词性。这一特征，我们在之后也会用到。阅读全文

posted @ 2019-01-07 10:14 左手中倒影阅读(1277) 评论(0) 推荐(0)

pyhanlp 共性分析与短语提取内容详解

摘要：HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是文本分词进行共性分析。在作者的原文中，有几个问题，为了便于说明，这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。阅读全文

posted @ 2019-01-04 09:47 左手中倒影阅读(733) 评论(0) 推荐(0)

HanLP的自定义词典使用方式与注意事项介绍

摘要：【环境】python 2.7 方法一：使用pyhanlp，具体方法如下： pip install pyhanlp # 安装pyhanlp 进入python安装包路径，如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.pr 阅读全文

posted @ 2019-01-02 09:48 左手中倒影阅读(880) 评论(0) 推荐(0)

左手中倒影

公告

01 2019 档案