左手中倒影

hadoop技术控 大数据解决方案 hanlp研究爱好者
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  hanlp

摘要:软件:IDEA2014、Maven、HanLP、JDK; 用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition; 用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在 阅读全文

posted @ 2018-11-12 10:20 左手中倒影 阅读(1041) 评论(0) 推荐(0)

摘要:词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 阅读全文

posted @ 2018-11-07 10:23 左手中倒影 阅读(1333) 评论(0) 推荐(0)

摘要:HanLP 关键词提取算法分析详解 l 参考论文:《TextRank: Bringing Order into Texts》 l TextRank算法提取关键词的Java实现 l TextRank算法自动摘要的Java实现这篇文章中作者大概解释了一下TextRank公式 1. 论文 In this 阅读全文

posted @ 2018-11-05 09:52 左手中倒影 阅读(1532) 评论(0) 推荐(0)

摘要:HanLP方法封装类:1. # -*- coding:utf-8 -*-2. # Filename: main.py3.4.from jpype import *5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\hanlp\hanlp- 阅读全文

posted @ 2018-10-31 10:18 左手中倒影 阅读(189) 评论(0) 推荐(0)

摘要:众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。 如何界定分词 中文分词指的是将一个汉字序列切分成一个 阅读全文

posted @ 2018-10-26 11:07 左手中倒影 阅读(730) 评论(0) 推荐(0)

摘要:这几天写完了人名识别模块,与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意,但是胜在训练语料比较新,对质量把关比较严,实测效果很满意。比如这句真实的新闻“签约仪式前,秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”,分词结果:[签约/v, 仪式/n, 前/f, ,/w, 秦光荣/ 阅读全文

posted @ 2018-10-22 14:22 左手中倒影 阅读(321) 评论(0) 推荐(0)

摘要:与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于条件随机场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用 双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。 阅读全文

posted @ 2018-10-19 10:22 左手中倒影 阅读(431) 评论(0) 推荐(0)

摘要:生成式句法分析指的是,生成一系列依存句法树,从它们中用特定算法挑出概率最大那一棵。句法分析中,生成模型的构建主要使用三类信息:词性信息、词汇信息和结构信息。前二类很好理解,而结构信息需要特殊语法标记,不做考虑。 阅读全文

posted @ 2018-10-17 10:34 左手中倒影 阅读(2543) 评论(0) 推荐(0)

摘要:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。 阅读全文

posted @ 2018-10-15 10:20 左手中倒影 阅读(444) 评论(0) 推荐(0)

摘要:中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块。由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词。 阅读全文

posted @ 2018-10-12 09:57 左手中倒影 阅读(647) 评论(0) 推荐(0)

摘要:之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来, 其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录 data与hanlp.properties合成一个data.jar文件. 1 阅读全文

posted @ 2018-10-10 09:12 左手中倒影 阅读(393) 评论(0) 推荐(0)

摘要:1、通过git下载分词器代码。 连接如下:https://gitee.com/hualongdata/hanlp-ext hanlp官网如下:http://hanlp.linrunsoft.com/ 2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可 阅读全文

posted @ 2018-10-08 14:26 左手中倒影 阅读(936) 评论(0) 推荐(0)

摘要:最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧。把整个学习的过程中截图在配文字的方式搞一下。 这两天也在看一些其他人分享的hanlp学习和使用分享的文章,后面看到的分享也会转载分享给大家。今天分享的这篇也是很早前别人分享的一篇如何用hanlp做分词的文章,新手入门级的可以看看! 阅读全文

posted @ 2018-09-30 10:25 左手中倒影 阅读(456) 评论(0) 推荐(0)

摘要:hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。 这里主要介绍一下hanlp的中文分词、命名实体识别、依存句法分析,这里就不介绍具体的hanlp的安装了,百度教程很多,可以看这里:http://hanlp.com/ 里面也有相关的一些介绍。 我以前还使用过j 阅读全文

posted @ 2018-09-28 09:53 左手中倒影 阅读(377) 评论(0) 推荐(0)

摘要:以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在Github上,欢迎改进。 阅读全文

posted @ 2018-09-26 15:12 左手中倒影 阅读(324) 评论(0) 推荐(0)

摘要:Hanlp是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。Hanlp具备功能完善、性能高效、架构清洗、语料时新、可自定义的特点;提供词法分析(中文分词、磁性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。 本篇将用户输入的语句根据词库进行分词、关键词提取、摘要提取、词库维护。 阅读全文

posted @ 2018-09-19 11:05 左手中倒影 阅读(165) 评论(0) 推荐(0)