左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  hanlp

摘要:这是一种简单的多标注中文分词解决方案,可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单,但的确带来了显著的性能提升(特别是对于小数据集如WTB)。同时我们也注意到特别大的数据集受益很小或无法从中受益(MSR),留作未来研究。我们希望该方法成为多标准中文分词的一个baseline,或生产系统中的一个物美价廉的拓展。 阅读全文

posted @ 2018-12-28 11:30 左手中倒影 阅读(343) 评论(0) 推荐(0)

摘要:Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享 阅读全文

posted @ 2018-12-26 10:19 左手中倒影 阅读(1508) 评论(0) 推荐(0)

摘要:在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 阅读全文

posted @ 2018-12-24 09:45 左手中倒影 阅读(169) 评论(0) 推荐(0)

摘要:依存句法分析器 在HanLP中一共有两种句法分析器 ·依存句法分析 (1)基于神经网络的高性能依存句法分析器 (2)MaxEnt依存句法分析 基于神经网络的高性能依存句法分析器 HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Acc 阅读全文

posted @ 2018-12-21 10:28 左手中倒影 阅读(419) 评论(0) 推荐(0)

摘要:Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用。有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解决方法,大家可以借鉴学习以下! 阅读全文

posted @ 2018-12-19 09:49 左手中倒影 阅读(636) 评论(0) 推荐(0)

摘要:pyhanlp用户自定义词典添加实例说明 pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用. 如何向pyhanlp添加自定义的词典?以python 2.7.9 阅读全文

posted @ 2018-12-17 10:45 左手中倒影 阅读(1198) 评论(0) 推荐(0)

摘要:前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一篇大神的文章,是关于在ubuntu下使用pycharm调用hanlp的实验。 阅读全文

posted @ 2018-12-14 09:11 左手中倒影 阅读(466) 评论(0) 推荐(0)

摘要:最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取 阅读全文

posted @ 2018-12-12 15:47 左手中倒影 阅读(338) 评论(0) 推荐(0)

摘要:HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客: blog.csdn.net/article/details?id=50938796 不过该博客主要介绍的是windows如何使 阅读全文

posted @ 2018-12-10 10:00 左手中倒影 阅读(164) 评论(0) 推荐(0)

摘要:中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合 阅读全文

posted @ 2018-12-07 10:13 左手中倒影 阅读(938) 评论(0) 推荐(0)

摘要:HanLP中人名识别分析详解 在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机构名识别错误 l ·关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi 阅读全文

posted @ 2018-12-05 09:54 左手中倒影 阅读(297) 评论(0) 推荐(0)

摘要:本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存bin文件时,那直接读取构建start和pair数组,速度超快。 阅读全文

posted @ 2018-12-03 09:53 左手中倒影 阅读(232) 评论(0) 推荐(0)

摘要:需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息 经过调研,找到了一下开源项目 1、word 分词器 2、ansj 分词器 3、mmseg4j 分词器 4、ik-analyzer 分词器 阅读全文

posted @ 2018-11-30 11:00 左手中倒影 阅读(252) 评论(0) 推荐(0)

摘要:项目结构 该项目中,.jar和data文件夹和.properties需要从官网/github下载,data文件夹下载 项目配置 修改hanlp.properties: 1 #/Test/src/hanlp.properties: 2 #本配置文件中的路径的根目录 3 #root=E:/SourceC 阅读全文

posted @ 2018-11-30 10:59 左手中倒影 阅读(3173) 评论(0) 推荐(0)

摘要:自然语言处理说白了,就是让机器去帮助我们完成一些语言层面的事情,典型的比如:情感分析、文本摘要、自动问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之类的,这些的基础都是自然语言处理,另外还有一些语音处理,这就暂且不表了。总之,你看到的机器与人利用语言交互,用机器模拟人脑阅读,对话,评论等等这些的基础都是自然语言处理的范畴之内。 阅读全文

posted @ 2018-11-28 09:42 左手中倒影 阅读(217) 评论(0) 推荐(0)

摘要:中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,; 阅读全文

posted @ 2018-11-26 09:59 左手中倒影 阅读(566) 评论(0) 推荐(0)

摘要:文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。 阅读全文

posted @ 2018-11-23 09:03 左手中倒影 阅读(658) 评论(0) 推荐(0)

摘要:HanLP 是基于 Java开发的 NLP工具包,由一系列模型与算法组成,目标是普及自然语言处理在生产环境中的应用。而且 HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点,因此十分好上手,本文就结合 Spring Boot来将 HanLP用起来! 阅读全文

posted @ 2018-11-21 11:05 左手中倒影 阅读(677) 评论(0) 推荐(0)

摘要:hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下: 自定义词典 自定义词典有多种添加模式,首先是展示的一个小例子,展示了词汇的动态增加与强行插入,删除等。更复杂的内容请 阅读全文

posted @ 2018-11-16 09:41 左手中倒影 阅读(1055) 评论(0) 推荐(0)

摘要:算法介绍 最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。 关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。 计算公式比较简单,如下: 预处理 由于需要处理的候选词大约后3w+ 阅读全文

posted @ 2018-11-14 09:33 左手中倒影 阅读(759) 评论(0) 推荐(0)