jieba分词与HMM学习

问题1：jieba中文分词的原理？

问题2：HMM在jieba中的应用？

问题3：HMM在其他行业内有何应用？

首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba

官网给出jieba中应用到的算法有：

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

功能解析：

主要功能包括：1、分词；2、添加自定义词典：字典的载入与调整；3、关键词抽取：IT-IDF算法、TextRank算法；4、词性标注；5、并行分词；6、ToKenize；7、chineseAnalyzer for Whoosh 搜索引擎；8、命令行分词

1.分词

#主要涉及函数包括有
jieba.cut()
jieba.cut_for_search()
jieba.lcut()
jieba.lcut_for_search()
jieba.Tokenizer(dictionary=DEFAULT_DICT)

#jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
#jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
#待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
#以上2个方法返回的是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
#jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。
# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

分词代码

View Code

运行结果

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

结果

2.添加自定义字典：

#方法1：添加词典文件，文件需要有特定格式，并且为UTF-8编码。
jieba.load_userdict(file_name)

#文件格式如下：单词  词频   词性

创新办 3 i
云计算 5
凱特琳 nz
台中

#方法2：动态修改词频
jieba.add_word(word, freq=None, tag=None)
jieba.del_word(word, freq=None, tag=None)



#调节单个词语的词频，使其能（不能）被分出来。
jieba.suggest_freq(segment, tune=True)




>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
如果/放到/post/中将/出错/。
>>> jieba.suggest_freq(('中', '将'), True)
494
>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
如果/放到/post/中/将/出错/。
>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
「/台/中/」/正确/应该/不会/被/切开
>>> jieba.suggest_freq('台中', True)
69
>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
「/台中/」/正确/应该/不会/被/切开

View Code

3.关键词提取

IF-IDF算法：

import  jieba.analyse

#一关键词提取
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

#输入参数依次为：待提取文本，返回权重最大的前topk个，是否返回权重，指定返回值的词性。

#二
jieba.analyse.TFIDF(idf_path=None) 
#新建 TFIDF 实例，idf_path 为 IDF 频率文件

#三自定义idf语料库
 jieba.analyse.set_idf_path(file_name)
用法： # file_name为自定义语料库的路径

#四停用词
 jieba.analyse.set_stop_words(file_name)

# file_name为自定义语料库的路径

关键词IT-IDF

TextRank算法：

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 
直接使用，接口相同，注意默认过滤词性。
jieba.analyse.TextRank() 
新建自定义 TextRank 实例

TextRank

基本思想：

将待抽取关键词的文本进行分词
以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
计算图中节点的PageRank，注意是无向带权图

4.词性标注

#jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器，tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。#jieba.posseg.dt 为默认词性标注分词器。
#标注句子分词后每个词的词性，采用和 ictclas 兼容的标记法。
#用法示例
>>> import jieba.posseg as pseg
>>> words = pseg.cut("我爱北京天安门")
>>> for word, flag in words:
...    print('%s %s' % (word, flag))
...
我 r
爱 v
北京 ns
天安门 ns

View Code

5.并行分词

原理：将目标文本按行分隔后，把各行文本分配到多个 Python 进程并行分词，然后归并结果，从而获得分词速度的可观提升
基于 python 自带的 multiprocessing 模块，目前暂不支持 Windows
注意：并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。

jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数
jieba.disable_parallel() # 关闭并行分词模式

View Code

6.返回词语在原文中的位置

注意，输入参数只接受 unicode
默认模式

result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和                start: 0                end:2
word 服装                start: 2                end:4
word 饰品                start: 4                end:6
word 有限公司            start: 6                end:10

View Code

搜索模式

result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
word 永和                start: 0                end:2
word 服装                start: 2                end:4
word 饰品                start: 4                end:6
word 有限                start: 6                end:8
word 公司                start: 8                end:10
word 有限公司            start: 6                end:10

View Code

7.ChineseAnalyzer for Whoosh 搜索引擎

from jieba.analyse import ChineseAnalyzer

View Code

8.命令行分词

答案三：HMM的应用：语音识别解码、反欺诈；

知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）。在语音识别领域呢，叫做解码问题。
还是知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率。 -反欺诈。
知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。

http://www.mamicode.com/info-detail-1530766.html

posted @ 2019-08-22 00:17 bioamin 阅读(1764) 评论(0) 收藏举报

刷新页面返回顶部

bioamin

追寻创业的梦想

jieba分词与HMM学习

公告