左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  hanlp

摘要:使用过hanlp的都知道hanlp中有许多词典,它们的格式都是非常相似的,形式都是文本文档,随时可以修改。本篇文章详细介绍了hanlp中的词典格式,以满足用户自定义的需要。 阅读全文

posted @ 2019-03-15 10:46 左手中倒影 阅读(315) 评论(0) 推荐(0)

摘要:词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这句话 阅读全文

posted @ 2019-03-13 10:44 左手中倒影 阅读(452) 评论(0) 推荐(0)

摘要:新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容。昨天正好看到的这篇关于关于1.7.0版本hanlp分词在spark中的使用介绍的文章,顺便分享给大家一起学习一下! 阅读全文

posted @ 2019-03-11 11:58 左手中倒影 阅读(334) 评论(0) 推荐(0)

摘要:Hanlp在离线环境下的安装我是没有尝试过的,分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下! 阅读全文

posted @ 2019-03-08 10:18 左手中倒影 阅读(456) 评论(0) 推荐(0)

摘要:master分支 对于master分支,编译方法如下: git clone https://github.com/hankcs/HanLP.git mvn install -DskipTests ·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。 ·该方法不会将src/ 阅读全文

posted @ 2019-03-06 11:32 左手中倒影 阅读(260) 评论(0) 推荐(0)

摘要:关于如何在linux服务器上使用hanlp也有分享过一篇,但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章,供新手朋友学习之用。 阅读全文

posted @ 2019-03-04 09:00 左手中倒影 阅读(573) 评论(0) 推荐(0)

摘要:如何在一段文本之中提取出相应的关键词呢? 之前有想过用机器学习的方法来进行词法分析,但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包 来进行提取关键词的想法。 阅读全文

posted @ 2019-03-01 08:59 左手中倒影 阅读(208) 评论(0) 推荐(0)

摘要:CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题。 阅读全文

posted @ 2019-02-27 09:45 左手中倒影 阅读(579) 评论(0) 推荐(0)

摘要:本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由 水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友! 安装调用 jieba“结巴”中文分词:做最好的 阅读全文

posted @ 2019-02-25 11:21 左手中倒影 阅读(3621) 评论(0) 推荐(1)

摘要:语料库 本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。 用Map描述 这种关系可以用Java的Map<String, 阅读全文

posted @ 2019-02-20 14:24 左手中倒影 阅读(487) 评论(0) 推荐(0)

摘要:TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。本博文通过hanlp关键词提取的一个Demo,并通过图解的方式来讲解TextRank的算法。 阅读全文

posted @ 2019-02-20 09:34 左手中倒影 阅读(802) 评论(0) 推荐(0)

摘要:这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用,同时算是给新手朋友的一些参考吧! 阅读全文

posted @ 2019-02-15 09:38 左手中倒影 阅读(153) 评论(0) 推荐(0)

摘要:过程分析 1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件 2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常,然后加载词典 阅读全文

posted @ 2019-01-27 09:53 左手中倒影 阅读(404) 评论(0) 推荐(0)

摘要:在使用Hanlp词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下: 一,在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录 位于D:\hnlp\hanlp 阅读全文

posted @ 2019-01-25 09:46 左手中倒影 阅读(253) 评论(0) 推荐(0)

摘要:问题 因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以 阅读全文

posted @ 2019-01-23 09:50 左手中倒影 阅读(278) 评论(0) 推荐(0)

摘要:本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作 阅读全文

posted @ 2019-01-21 09:56 左手中倒影 阅读(442) 评论(0) 推荐(0)

摘要:这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s 阅读全文

posted @ 2019-01-16 11:25 左手中倒影 阅读(295) 评论(0) 推荐(0)

摘要:最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。 阅读全文

posted @ 2019-01-14 09:56 左手中倒影 阅读(439) 评论(0) 推荐(0)

摘要:如果想要只获取词性也是可以的,因为原分词器返回的是Java中的ArrayList属性,list中的每个单元都是一个term类,因此我们也可以通过获取term中的word字段来直接获取词语,或者nature属性,直接获取词性。这一特征,我们在之后也会用到。 阅读全文

posted @ 2019-01-07 10:14 左手中倒影 阅读(1276) 评论(0) 推荐(0)

摘要:【环境】python 2.7 方法一:使用pyhanlp,具体方法如下: pip install pyhanlp # 安装pyhanlp 进入python安装包路径,如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.pr 阅读全文

posted @ 2019-01-02 09:48 左手中倒影 阅读(871) 评论(0) 推荐(0)