HanLP笔记 - 分词

1. 标准分词

2. NLP分词

3. 索引分词

4. 繁体分词

5. 极速词典分词

6. N-最短路径分词

7. CRF分词

 

详细文档:http://hanlp.linrunsoft.com/doc/_build/html/segment.html

 

自定义词典

第一步:  data\dictionary\custom目录下新增   我的词典.txt       

  注意:

  (1)文件编码必须utf-8的;

  (2)词典格式,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。

  (3)建议将相同词性的词语放到同一个词典文件里,便于维护和分享

第二步:删除目录中的CustomDictionary.txt.bin缓存文件

第三部:配置文件hanlp.properties修改,CustomDictionaryPath后增加 我的词典.txt

运行代码,会提醒找不到CustomDictionary.txt.bin文件,不用管,他会自动再生成一个。过一段时间过后就能出结果。

posted @ 2018-06-21 22:34  nike_ha  阅读(263)  评论(0编辑  收藏  举报