结巴分词
精确模式:试图将句子最精确地切开,适合文本分析;cut_all=False
全模式:把句子中所有可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;cut_all=True
搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。jieba.cut_for_search()
import jieba
text = "线程是程序执行时的最小单位,它是进程的一个执行流,\
是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\
线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\
线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\
同样多线程也可以实现并发操作,每个请求分配一个线程来处理。"
text_list1=jieba.cut(text,cut_all=True)#精确模式,<generator object Tokenizer.cut at 0x000001F73EA3DD58>
# res1='/'.join(text_list1)
# print(res1)
text_list1=jieba.cut(text,cut_all=False)#精确模式,<generator object Tokenizer.cut at 0x000001F73EA3DD58>
# res1='/'.join(text_list1)
# print(res1)
text_list2=jieba.cut_for_search(text)#搜索引擎模式,<generator object Tokenizer.cut at 0x000001F73EA3DD58>
#res2='/'.join(text_list2)
#print(res2)
text_list=jieba.lcut(text,cut_all=True)#全模式,list
#print(text_list)
text_list1=jieba.lcut(text,cut_all=False)#精确模式,list
#print(text_list1)
posted on 2018-11-02 18:18 happygril3 阅读(209) 评论(0) 收藏 举报
浙公网安备 33010602011771号