python day 16 jieba库

Jieba库
一．概述
1．由于中文汉字之间是连续书写的，不像英文单词之间是空格隔开的，获得汉语的词组
2．就需要特殊的手段，即：分词
3．Jieba是优秀的中文分词第三方库
4．Jieba 提供三种分词模式，最简单只需要掌握一个函数
二．Jieba库分词的原理
1．利用中文词库，确定汉字之间的关联概率，汉字之间关联概率的组成词组，形成分词结果。
2．处理jieba库自带的词库，用户也可自定义词组，从而是词库更适合某些特殊领域
三．三种模式
1．精确模式：把文本精确的切分，不存在冗余单词
2．全模式：列出所有可能的单词，存在冗余
3．搜索引擎模式：
四．常用函数
1．Jieba.lcut(str) = cut string into list
Jieba.lcut(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
2．Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
3．Jieba.lcut_for_search(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
和精确分词没有区别，因为没有长的词
比较： a = ‘中华人民共和国是一个伟大的国家’
Jieba.lcut(a)
['中华人民共和国', '是', '一个', '伟大', '的', '国家']
Jieba.lcut_for_search(a)
['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '一个', '伟大', '的', '国家']
4．Jieba.add_word(string) 向分词词典增加新词string
Jieba.add_word(‘蟒蛇语言’)

posted @ 2019-12-27 22:34 191206 阅读(216) 评论(0) 收藏举报

刷新页面返回顶部

191206

python day 16 jieba库

公告