再NLP中遇到了词汇切分不合理的情况,添加用户字典

在进行jieba分词时,进行用户字典编写,会对分词进行个性化定制

一般而言,通过用户词典的方法能够对分词产生更具优秀的效果,尤其是在细粒度划分词句时候

添加用户词典的具体方法为:建立userdict的txt文本文件,每个词汇占据一行(每行可以有词汇,词频(可省略),词性(可省略))。用户词典具有强调作用,能够优先以用户词典的形式进行分词,也可以在词云制作的时候产生较好的效果

操作为:

jieba.load_userdict(./userdict.txt)

导入结巴分词中当做用户的个性化词典

 

posted @ 2019-07-11 14:26  老王哈哈哈  阅读(344)  评论(0编辑  收藏  举报