结巴分词

HMM（隐马尔可夫模型）是用来描述隐含未知参数的统计模型，举一个经典的例子：一个东京的朋友每天根据天气{下雨，天晴}决定当天的活动{公园散步,购物,清理房间}中的一种，我每天只能在twitter上看到她发的推“啊，我前天公园散步、昨天购物、今天清理房间了！”，那么我可以根据她发的推特推断东京这三天的天气。在这个例子里，显状态是活动，隐状态是天气。

https://zhuanlan.zhihu.com/p/40502333

https://www.cnblogs.com/earendil/p/8036002.html

https://zhuanlan.zhihu.com/p/40502333

http://www.52nlp.cn/hmm%E7%9B%B8%E5%85%B3%E6%96%87%E7%AB%A0%E7%B4%A2%E5%BC%95

结巴分词：

https://www.cnblogs.com/zhbzz2007/p/6076246.html

https://www.cnblogs.com/zhbzz2007/p/6084196.html

https://www.cnblogs.com/zhbzz2007/p/6092313.html

https://www.cnblogs.com/zhbzz2007/p/6165442.html

https://www.cnblogs.com/zhbzz2007/p/6177832.html

除了一下特性还能取得 tags，词权重 jieba.analyse.extract_tags

（5）获取词性

jieba 可以很方便地获取中文词性，通过 jieba.posseg 模块实现词性标注。

import jieba.posseg as psg print([(x.word,x.flag) for x in psg.lcut(content)])

结果为：

[('现如今', 't'), ('，', 'x'), ('机器', 'n'), ('学习', 'v'), ('和', 'c'), ('深度', 'ns'), ('学习', 'v'), ('带动', 'v'), ('人工智能', 'n'), ('飞速', 'n'), ('的', 'uj'), ('发展', 'vn'), ('，', 'x'), ('并', 'c'), ('在', 'p'), ('图片', 'n'), ('处理', 'v'), ('、', 'x'), ('语音', 'n'), ('识别', 'v'), ('领域', 'n'), ('取得', 'v'), ('巨大成功', 'nr'), ('。', 'x')]

（6）并行分词

并行分词原理为文本按行分隔后，分配到多个 Python 进程并行分词，最后归并结果。

用法：

jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数。jieba.disable_parallel() # 关闭并行分词模式。

注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。目前暂不支持 Windows。

（7）获取分词结果中词列表的 top n

from collections import Counter top5= Counter(segs_5).most_common(5) print(top5)

结果为：

[('，', 2), ('学习', 2), ('现如今', 1), ('机器', 1), ('和', 1)]

posted on 2019-12-05 12:27 不忘初衷,方能致远阅读(302) 评论(0) 收藏举报

刷新页面返回顶部

不忘初衷,方能致远

导航

公告