结巴分词

viterbi 算法 https://wulc.me/2017/03/02/%E7%BB%B4%E7%89%B9%E6%AF%94%E7%AE%97%E6%B3%95/

                  https://en.wikipedia.org/wiki/File:Viterbi_animated_demo.gif

                  https://zh.wikipedia.org/wiki/%E7%BB%B4%E7%89%B9%E6%AF%94%E7%AE%97%E6%B3%95

      https://wulc.me/2017/03/02/%E7%BB%B4%E7%89%B9%E6%AF%94%E7%AE%97%E6%B3%95/

 HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我可以根据她发的推特推断东京这三天的天气。在这个例子里,显状态是活动,隐状态是天气。

 https://zhuanlan.zhihu.com/p/40502333

https://www.cnblogs.com/earendil/p/8036002.html

https://zhuanlan.zhihu.com/p/40502333

 http://www.52nlp.cn/hmm%E7%9B%B8%E5%85%B3%E6%96%87%E7%AB%A0%E7%B4%A2%E5%BC%95

结巴分词:

https://www.cnblogs.com/zhbzz2007/p/6076246.html

https://www.cnblogs.com/zhbzz2007/p/6084196.html

https://www.cnblogs.com/zhbzz2007/p/6092313.html

https://www.cnblogs.com/zhbzz2007/p/6165442.html

https://www.cnblogs.com/zhbzz2007/p/6177832.html

 

 

 

除了一下特性 还能取得 tags,词权重  jieba.analyse.extract_tags

(5)获取词性

jieba 可以很方便地获取中文词性,通过 jieba.posseg 模块实现词性标注。

import jieba.posseg as psg print([(x.word,x.flag) for x in psg.lcut(content)])

结果为:

[('现如今', 't'), (',', 'x'), ('机器', 'n'), ('学习', 'v'), ('和', 'c'), ('深度', 'ns'), ('学习', 'v'), ('带动', 'v'), ('人工智能', 'n'), ('飞速', 'n'), ('的', 'uj'), ('发展', 'vn'), (',', 'x'), ('并', 'c'), ('在', 'p'), ('图片', 'n'), ('处理', 'v'), ('、', 'x'), ('语音', 'n'), ('识别', 'v'), ('领域', 'n'), ('取得', 'v'), ('巨大成功', 'nr'), ('。', 'x')]

 

(6)并行分词

并行分词原理为文本按行分隔后,分配到多个 Python 进程并行分词,最后归并结果。

用法:

jieba.enable_parallel(4) # 开启并行分词模式,参数为并行进程数 。jieba.disable_parallel() # 关闭并行分词模式 。

注意: 并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。目前暂不支持 Windows。

 

(7)获取分词结果中词列表的 top n

from collections import Counter top5= Counter(segs_5).most_common(5) print(top5)

结果为:

[(',', 2), ('学习', 2), ('现如今', 1), ('机器', 1), ('和', 1)]

posted on 2019-12-05 12:27  不忘初衷,方能致远  阅读(267)  评论(0编辑  收藏  举报

导航