Loading

Python之jieba

about

install

pip install jieba
pip install -i https://pypi.doubanio.com/simple/ jieba

几种分词模式

import jieba

word = "他毕业于上海交通大学机电系,后来在一机部上海电器科学研究所工作"
print("全模式: " + "/".join(jieba.cut(word, cut_all=True)))   
print("精确模式: " + "/".join(jieba.cut(word, cut_all=False)))   
print("搜索引擎模式: " + "/".join(jieba.cut_for_search(word)))   

"""
全模式: 他/毕业/于/上海/上海交通大学/交通/大学/机电/系/,/后来/在/一机部/上海/电器/科学/科学研究/研究/研究所/工作
精确模式: 他/毕业/于/上海交通大学/机电/系/,/后来/在/一机部/上海/电器/科学/研究所/工作
搜索引擎模式: 他/毕业/于/上海/交通/大学/上海交通大学/机电/系/,/后来/在/一机部/上海/电器/科学/研究/研究所/工作
"""

cut和lcut的区别

cut

cut返回的是生成器。

import jieba
print(jieba.cut('上海自来水来自海上',cut_all=True))  # <generator object Tokenizer.cut at 0x01352D50>
print(list(jieba.cut('上海自来水来自海上',cut_all=True)))  # ['上海', '自来', '自来水', '来自', '海上']

cut_all参数默认是False,精确模式(将语句划分开),True是全模式(将语句所有可能组合的词分出来)。

lcut

lcut返回的是列表。

import jieba
print(jieba.lcut('上海自来水来自海上'))   # ['上海', '自来水', '来自', '海上']

欢迎斧正,that's all,see also:

jieba之cut & lcut | 简明 jieba 中文分词教程

posted @ 2019-06-14 12:29  听雨危楼  阅读(914)  评论(0编辑  收藏  举报