NLP相关分词和预处理工具包
jieba
Python下中文分词工具
地址:https://github.com/fxsjy/jieba , 安装:pip install jieba
功能:中文分词、词性标注、TF-IDF和TextRank关键词抽取
ansj
Java下中文分词工具
地址:https://github.com/NLPchina/ansj_seg ,maven使用:
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
功能:中文分词、词性标注
hanlp处理包
支持Python和Java
Python版:https://github.com/hankcs/pyhanlp , 安装:pip install pyhanlp
Java版:https://github.com/hankcs/HanLP ,maven使用:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.3</version>
</dependency>
功能:中文分词、词性标注、依存句法分析、命名实体识别、短语提取、自动摘要、文本分类聚类
NLPIR中科院分词系统
官方网站:http://ictclas.nlpir.org/
GitHub:https://github.com/NLPIR-team/NLPIR
Python版: https://github.com/tsroten/pynlpir
功能:中文分词、词性标注
LTP语言技术平台
支持C++、Java和Python
C++版:https://github.com/HIT-SCIR/ltp , examples中有实例
Java版:https://github.com/HIT-SCIR/ltp4j
Python版:https://github.com/HIT-SCIR/pyltp
需要加载训练好的模型,下载地址:http://ltp.ai/download.html
功能:中文分词、词性标注、依存句法分析、语义角色标注、命名实体识别
THULAC清华词法分析工具
支持C++、Java和Python
C++版:https://github.com/thunlp/THULAC
Java版:https://github.com/thunlp/THULAC-Java
Python版:https://github.com/thunlp/THULAC-Python
功能:中文分词、词性标注
StanfordNLP
支持Java和Python,支持多种语言
Java版:https://github.com/stanfordnlp/CoreNLP
Python版:https://github.com/stanfordnlp/stanfordnlp
功能:中文分词、词性标注、依存句法分析、命名实体识别,支持多种语言
NLTK自然语言处理工具包
NLTK英文支持很好
官方网站:http://www.nltk.org/
GitHub:https://github.com/nltk/nltk
功能:英文分词,词性标注等预处理