NLP相关分词和预处理工具包

jieba

Python下中文分词工具
地址:https://github.com/fxsjy/jieba , 安装:pip install jieba
功能:中文分词、词性标注、TF-IDF和TextRank关键词抽取

ansj

Java下中文分词工具
地址:https://github.com/NLPchina/ansj_seg ,maven使用:

	<dependency>
	     <groupId>org.ansj</groupId>
	     <artifactId>ansj_seg</artifactId>
	     <version>5.1.1</version>
	</dependency>

功能:中文分词、词性标注

hanlp处理包

支持Python和Java
Python版:https://github.com/hankcs/pyhanlp , 安装:pip install pyhanlp
Java版:https://github.com/hankcs/HanLP ,maven使用:

	<dependency>
    	<groupId>com.hankcs</groupId>
    	<artifactId>hanlp</artifactId>
    	<version>portable-1.7.3</version>
	</dependency>

功能:中文分词、词性标注、依存句法分析、命名实体识别、短语提取、自动摘要、文本分类聚类

NLPIR中科院分词系统

官方网站:http://ictclas.nlpir.org/
GitHub:https://github.com/NLPIR-team/NLPIR
Python版: https://github.com/tsroten/pynlpir
功能:中文分词、词性标注

LTP语言技术平台

支持C++、Java和Python
C++版:https://github.com/HIT-SCIR/ltp , examples中有实例
Java版:https://github.com/HIT-SCIR/ltp4j
Python版:https://github.com/HIT-SCIR/pyltp
需要加载训练好的模型,下载地址:http://ltp.ai/download.html
功能:中文分词、词性标注、依存句法分析、语义角色标注、命名实体识别

THULAC清华词法分析工具

支持C++、Java和Python
C++版:https://github.com/thunlp/THULAC
Java版:https://github.com/thunlp/THULAC-Java
Python版:https://github.com/thunlp/THULAC-Python
功能:中文分词、词性标注

StanfordNLP

支持Java和Python,支持多种语言
Java版:https://github.com/stanfordnlp/CoreNLP
Python版:https://github.com/stanfordnlp/stanfordnlp
功能:中文分词、词性标注、依存句法分析、命名实体识别,支持多种语言

NLTK自然语言处理工具包

NLTK英文支持很好
官方网站:http://www.nltk.org/
GitHub:https://github.com/nltk/nltk
功能:英文分词,词性标注等预处理

posted @ 2019-04-27 11:10  黄然小悟  阅读(177)  评论(0)    收藏  举报