左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

12 2018 档案

摘要:这是一种简单的多标注中文分词解决方案,可以在不增加模型复杂度的情况下联合多个语料库训练单个模型。该方案虽然简单,但的确带来了显著的性能提升(特别是对于小数据集如WTB)。同时我们也注意到特别大的数据集受益很小或无法从中受益(MSR),留作未来研究。我们希望该方法成为多标准中文分词的一个baseline,或生产系统中的一个物美价廉的拓展。 阅读全文

posted @ 2018-12-28 11:30 左手中倒影 阅读(343) 评论(0) 推荐(0)

摘要:Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享 阅读全文

posted @ 2018-12-26 10:19 左手中倒影 阅读(1510) 评论(0) 推荐(0)

摘要:在12月20日由中国电子信息产业发展研究院主办的2018中国软件大会上,大快搜索获评“2018中国大数据基础软件领域领军企业”,并成功入选中国数字化转型TOP100服务商。 阅读全文

posted @ 2018-12-24 09:45 左手中倒影 阅读(169) 评论(0) 推荐(0)

摘要:大数据在政务当中的应用对于提高问题解决的效率可谓大有帮助,但政务大数据平台的应用开发远不止提高问题解决效率这么简单。当然,作为大数据平台应用的开发者来说,我们要做的是还是从底层的技术层面做好解决方案。关于政务大数据平台的解决方案此前有分享过智慧人社的和城市智慧停车的大数据平台解决方案,本篇给大家分享一个新的政务大数据平台管理案例——大快搜索的城市数据运河政务大数据管理运营平台。 阅读全文

posted @ 2018-12-24 09:43 左手中倒影 阅读(229) 评论(0) 推荐(0)

摘要:依存句法分析器 在HanLP中一共有两种句法分析器 ·依存句法分析 (1)基于神经网络的高性能依存句法分析器 (2)MaxEnt依存句法分析 基于神经网络的高性能依存句法分析器 HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A Fast and Acc 阅读全文

posted @ 2018-12-21 10:28 左手中倒影 阅读(419) 评论(0) 推荐(0)

摘要:Hanlp是由一系列模型与算法组成的javag工具包,目标是普及自然语言处理再生环境中的应用。有很多人在安装hanlp的时候会遇到安装失败的情况,下面就是某大神的分享的在python环境中安装失败的解决方法,大家可以借鉴学习以下! 阅读全文

posted @ 2018-12-19 09:49 左手中倒影 阅读(637) 评论(0) 推荐(0)

摘要:pyhanlp用户自定义词典添加实例说明 pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp 经过测试,HanLP比nltk在中文分词和实体识别方面都更好用. 如何向pyhanlp添加自定义的词典?以python 2.7.9 阅读全文

posted @ 2018-12-17 10:45 左手中倒影 阅读(1202) 评论(0) 推荐(0)

摘要:前几天看了大快的举办的大数据论坛峰会的现场直播,惊喜的是hanlp2.0版本发布。Hanlp2.0版本将会支持任意多的语种,感觉还是挺好的!不过更多关于hanlp2.0的信息,可能还需要过一段时间才能看到,只能等一下了!下面分享一篇大神的文章,是关于在ubuntu下使用pycharm调用hanlp的实验。 阅读全文

posted @ 2018-12-14 09:11 左手中倒影 阅读(467) 评论(0) 推荐(0)

摘要:最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取 阅读全文

posted @ 2018-12-12 15:47 左手中倒影 阅读(341) 评论(0) 推荐(0)

摘要:HanLP的一个很大的好处是离线开源工具包,换而言之,它不仅提供免费的代码免费下载,而且将辛苦收集的词典也对外公开啦,此诚乃一大无私之举.我在安装的时候,主要参照这份博客: blog.csdn.net/article/details?id=50938796 不过该博客主要介绍的是windows如何使 阅读全文

posted @ 2018-12-10 10:00 左手中倒影 阅读(164) 评论(0) 推荐(0)

摘要:中文分词 中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合 阅读全文

posted @ 2018-12-07 10:13 左手中倒影 阅读(940) 评论(0) 推荐(0)

摘要:HanLP中人名识别分析详解 在看源码之前,先看几遍论文《基于角色标注的中国人名自动识别研究》 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机构名识别错误 l ·关于层叠HMM中文实体识别的过程 HanLP参考博客: 词性标注 层叠HMM-Viterbi 阅读全文

posted @ 2018-12-05 09:54 左手中倒影 阅读(298) 评论(0) 推荐(0)

摘要:本文分析:HanLP版本1.5.3中二元核心词典的存储与查找。当词典文件没有被缓存时,会从文本文件CoreNatureDictionary.ngram.txt中解析出来存储到TreeMap中,然后构造start和pair数组,并基于这两个数组实现词共现频率的二分查找。当已经有缓存bin文件时,那直接读取构建start和pair数组,速度超快。 阅读全文

posted @ 2018-12-03 09:53 左手中倒影 阅读(234) 评论(0) 推荐(0)