hanlp - 随笔分类(第3页) - 左手中倒影

Hanlp自然语言处理中的词典格式说明

摘要：使用过hanlp的都知道hanlp中有许多词典，它们的格式都是非常相似的，形式都是文本文档，随时可以修改。本篇文章详细介绍了hanlp中的词典格式，以满足用户自定义的需要。阅读全文

posted @ 2019-03-15 10:46 左手中倒影阅读(315) 评论(0) 推荐(0)

中文分词算法工具hanlp源码解析

摘要：词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。需要稀疏2维矩阵模型，以一个词的起始位置作为行，终止位置作为列，可以得到一个二维矩阵。例如：“他说的确实在理”这句话阅读全文

posted @ 2019-03-13 10:44 左手中倒影阅读(452) 评论(0) 推荐(0)

Hanlp分词1.7版本在Spark中分布式使用记录

摘要：新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了，最近也是一直在整理这个新版本hanlp分词工具的相关内容。不过按照当前的整理进度，还需要一段时间再给大家详细分享整理的内容。昨天正好看到的这篇关于关于1.7.0版本hanlp分词在spark中的使用介绍的文章，顺便分享给大家一起学习一下！阅读全文

posted @ 2019-03-11 11:58 左手中倒影阅读(334) 评论(0) 推荐(0)

Window离线环境下如何安装pyhanlp

摘要：Hanlp在离线环境下的安装我是没有尝试过的，分享SunJW_2017的这篇文章就是关于如何在离线环境下安装hanlp的。我们可以一起来学习一下！阅读全文

posted @ 2019-03-08 10:18 左手中倒影阅读(456) 评论(0) 推荐(0)

如何编译运行HanLP自然语言处理包

摘要：master分支对于master分支，编译方法如下: git clone https://github.com/hankcs/HanLP.git mvn install -DskipTests ·由于目前一些test不够规范，使用了硬编码路径下的资源，所以暂时跳过单元测试。 ·该方法不会将src/ 阅读全文

posted @ 2019-03-06 11:32 左手中倒影阅读(260) 评论(0) 推荐(0)

如何在linux服务器上使用hanlp

摘要：关于如何在linux服务器上使用hanlp也有分享过一篇，但分享的内容与湘笑的这篇还是不同的。此处分享一下湘笑的这篇hanlp在linux服务器上使用的文章，供新手朋友学习之用。阅读全文

posted @ 2019-03-04 09:00 左手中倒影阅读(573) 评论(0) 推荐(0)

hanlp提取文本关键词的使用方法记录

摘要：如何在一段文本之中提取出相应的关键词呢？之前有想过用机器学习的方法来进行词法分析，但是在项目中测试时正确率不够。于是这时候便有了 HanLP-汉语言处理包来进行提取关键词的想法。阅读全文

posted @ 2019-03-01 08:59 左手中倒影阅读(208) 评论(0) 推荐(0)

开源自然语言处理工具包hanlp中CRF分词实现详解

摘要：CRF是序列标注场景中常用的模型，比HMM能利用更多的特征，比MEMM更能抵抗标记偏置的问题。阅读全文

posted @ 2019-02-27 09:45 左手中倒影阅读(579) 评论(0) 推荐(0)

hanlp和jieba等六大中文分工具的测试对比

摘要：本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由水...琥珀完成的。相关测试的文章之前也看到过一些，但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友！安装调用 jieba“结巴”中文分词：做最好的阅读全文

posted @ 2019-02-25 11:21 左手中倒影阅读(3621) 评论(0) 推荐(1)

pyhanlp文本分类与情感分析

摘要：语料库本文语料库特指文本分类语料库，对应IDataSet接口。而文本分类语料库包含两个概念：文档和类目。一个文档只属于一个类目，一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip，下载前请先阅读搜狗实验室数据使用许可协议。用Map描述这种关系可以用Java的Map<String, 阅读全文

posted @ 2019-02-20 14:24 左手中倒影阅读(487) 评论(0) 推荐(0)

自然语言处理工具hanlp关键词提取图解TextRank算法

摘要：TextRank是在Google的PageRank算法启发下，针对文本里的句子设计的权重算法，目标是自动摘要。它利用投票的原理，让每一个单词给它的邻居（术语称窗口）投赞成票，票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论，PageRank采用矩阵迭代收敛的方式解决了这个悖论。本博文通过hanlp关键词提取的一个Demo，并通过图解的方式来讲解TextRank的算法。阅读全文

posted @ 2019-02-20 09:34 左手中倒影阅读(802) 评论(0) 推荐(0)

中文自然语言处理工具HanLP源码包的下载使用记录

摘要：这篇文章主要分享的是hanlp自然语言处理源码的下载，数据集的下载，以及将让源代码中的demo能够跑通。Hanlp安装包的下载以及安装其实之前就已经有过分享了。本篇文章主要还是备忘之用，同时算是给新手朋友的一些参考吧！阅读全文

posted @ 2019-02-15 09:38 左手中倒影阅读(153) 评论(0) 推荐(0)

自然语言处理工具hanlp自定义词汇添加图解

摘要：过程分析 1.添加新词需要确定无缓存文件，否则无法使用成功，因为词典会优先加载缓存文件 2.再确认缓存文件不在时，打开本地词典按照格式添加自定义词汇。 3.调用分词函数重新生成缓存文件，这时会报一个找不到缓存文件的异常，不用管，因为加载词典进入内存是会优先加载缓存，缓存不在当然会报异常，然后加载词典阅读全文

posted @ 2019-01-27 09:53 左手中倒影阅读(404) 评论(0) 推荐(0)

在Hanlp词典手动添加未登录词的方式介绍

摘要：在使用Hanlp词典进行分词的时候，会出现分词不准的情况，原因是内置词典中并没有收录当前这个词，也就是我们所说的未登录词，只要把这个词加入到内置词典中就可以解决类似问题，如何操作呢，下面我们来看一下：一，在Hanlp词典中添加未登录词 1.找到hanlp内置词典目录位于D:\hnlp\hanlp 阅读全文

posted @ 2019-01-25 09:46 左手中倒影阅读(253) 评论(0) 推荐(0)

如何使用Hanlp加载大字典

摘要：问题因为需要加载一个近 1G 的字典到Hanlp中，一开始使用了CustomDictionay.add() 方法来一条条的加载，果然到了中间，维护DoubleArraTre 的成本太高，添加一个节点，都会很长时间，本来时间长一点没有关系，只要训练出.bin 的文件，第二次加载就会很快，然而作为以阅读全文

posted @ 2019-01-23 09:50 左手中倒影阅读(278) 评论(0) 推荐(0)

spark集群使用hanlp进行分布式分词操作说明

摘要：本篇分享一个使用hanlp分词的操作小案例，即在spark集群中使用hanlp完成分布式分词的操作阅读全文

posted @ 2019-01-21 09:56 左手中倒影阅读(442) 评论(0) 推荐(0)

基于CRF序列标注的中文依存句法分析器的Java实现

摘要：这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》，分析速度翻了一倍，达到了1262.8655 sent/s 阅读全文

posted @ 2019-01-16 11:25 左手中倒影阅读(295) 评论(0) 推荐(0)

基于结构化平均感知机的分词器Java实现

摘要：最近高产似母猪，写了个基于AP的中文分词器，在Bakeoff-05的MSR语料上F值有96.11%。最重要的是，只训练了5个迭代；包含语料加载等IO操作在内，整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后，F值才下降不到0.1个百分点，体积控制在11兆。如果训练一百个迭代，F值可达到96.31%，训练时间两分多钟。阅读全文

posted @ 2019-01-14 09:56 左手中倒影阅读(439) 评论(0) 推荐(0)

pyhanlp 中文词性标注与分词简介

摘要：如果想要只获取词性也是可以的，因为原分词器返回的是Java中的ArrayList属性，list中的每个单元都是一个term类，因此我们也可以通过获取term中的word字段来直接获取词语，或者nature属性，直接获取词性。这一特征，我们在之后也会用到。阅读全文

posted @ 2019-01-07 10:14 左手中倒影阅读(1276) 评论(0) 推荐(0)

HanLP的自定义词典使用方式与注意事项介绍

摘要：【环境】python 2.7 方法一：使用pyhanlp，具体方法如下： pip install pyhanlp # 安装pyhanlp 进入python安装包路径，如 /usr/lib/python2.7/site-packages/pyhanlp/static/ 将http://hanlp.pr 阅读全文

posted @ 2019-01-02 09:48 左手中倒影阅读(871) 评论(0) 推荐(0)

左手中倒影

公告

随笔分类 - hanlp