句法分析工具 LTP HanLP

参考:http://cslt.riit.tsinghua.edu.cn/mediawiki/images/e/e5/%E5%8F%A5%E6%B3%95%E5%B7%A5%E5%85%B7%E5%88%86%E6%9E%90.pdf

http://pyltp.readthedocs.io/zh_CN/latest/api.html

https://pypi.python.org/pypi/pyltp

https://github.com/hankcs/HanLP

 

 

使用 pyltp

pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

 

使用 HanLp

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能:

  • 中文分词
    • 最短路分词
    • N-最短路分词
    • CRF分词
    • 感知机中文分词
    • 索引分词
    • 极速词典分词
    • 用户自定义词典
  • 词性标注
    • HMM词性标注
    • 感知机词性标注
  • 命名实体识别
    • 中国人名识别
    • 音译人名识别
    • 日本人名识别
    • 地名识别
    • 实体机构名识别
    • 感知机命名实体识别
  • 关键词提取
    • TextRank关键词提取
  • 自动摘要
    • TextRank自动摘要
  • 短语提取
    • 基于互信息和左右信息熵的短语提取
  • 拼音转换
    • 多音字
    • 声母
    • 韵母
    • 声调
  • 简繁转换
    • 繁体中文分词
    • 简繁分歧词(简体、繁体、臺灣正體、香港繁體)
  • 文本推荐
    • 语义推荐
    • 拼音推荐
    • 字词推荐
  • 依存句法分析
    • 基于神经网络的高性能依存句法分析器
    • MaxEnt依存句法分析
    • CRF依存句法分析
  • 文本分类
    • 情感分析
  • word2vec
    • 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
    • 文档语义相似度计算
  • 语料库工具
    • 分词语料预处理
    • 词频词性词典制作
    • BiGram统计
    • 词共现统计
    • CoNLL语料预处理
    • CoNLL UA/LA/DA评测工具

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

 

 

 

 

 

待续。。

posted on 2018-01-11 19:45  TMatrix52  阅读(678)  评论(0编辑  收藏  举报

导航