左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

06 2019 档案

摘要:繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 ·说明 · HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字 阅读全文

posted @ 2019-06-28 09:27 左手中倒影 阅读(238) 评论(0) 推荐(0)

摘要:基于字标注法的分词 中文分词字标注通常有2-tag,4-tag和6-tag这几种方法,其中4-tag方法最为常用。标注集是依据汉字(其中也有少量的非汉字字符)在汉语词中的位置设计的。 1. 2-tag法 2-tag是一种最简单的标注方法,标注集合为{B,I},其将词首标记设计为B,而将词的其他位置标 阅读全文

posted @ 2019-06-26 09:45 左手中倒影 阅读(284) 评论(0) 推荐(0)

摘要:中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。 阅读全文

posted @ 2019-06-24 10:11 左手中倒影 阅读(298) 评论(0) 推荐(0)

摘要:一、Ansj 1、利用DicAnalysis可以自定义词库: 2、但是自定义词库存在局限性,导致有些情况无效: 比如:“不好用“的正常分词结果:“不好,用”。 (1)当自定义词库”好用“时,词库无效,分词结果不变。 (2)当自定义词库 “不好用”时,分词结果为:“不好用”,即此时自定义词库有效。 3 阅读全文

posted @ 2019-06-21 13:33 左手中倒影 阅读(410) 评论(0) 推荐(0)

摘要:分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后 阅读全文

posted @ 2019-06-19 10:03 左手中倒影 阅读(1507) 评论(0) 推荐(0)

摘要:本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。 阅读全文

posted @ 2019-06-17 09:46 左手中倒影 阅读(963) 评论(0) 推荐(0)

摘要:最近发现一个很勤快的大神在分享他的一些实操经验,看了一些他自己关于hanlp方面的文章,写的挺好的!转载过来分享给大家!以下为分享原文(无意义的内容已经做了删除) 如下图所示,HanLP的分类模块中单独封装了适用分类的分词器,当然这些分词器都是对HanLP提供的分词器的封装。分类模块中提供的分词器都 阅读全文

posted @ 2019-06-14 10:09 左手中倒影 阅读(509) 评论(0) 推荐(0)

摘要:概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小化安装的centos 7.5 ·elasticsearch 6.4.0 认识中文分词器 在博文elast 阅读全文

posted @ 2019-06-12 09:17 左手中倒影 阅读(2425) 评论(1) 推荐(0)

摘要:今天介绍的内容是最短路径分词。最近换回了thinkpad x1,原因是mac的13.3寸的屏幕看代码实在是不方便,也可能是人老了吧,^_^。等把HanLP词法分析介绍结束后,还是会换回macbook pro的。个人有强迫症,只要看或写Java或C/C++代码或者用开发机的化,还是喜欢在windows 阅读全文

posted @ 2019-06-05 10:35 左手中倒影 阅读(350) 评论(0) 推荐(0)

摘要:一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInte 阅读全文

posted @ 2019-06-03 10:23 左手中倒影 阅读(946) 评论(0) 推荐(0)