【python】中文提取，判断，分词

参考：

http://www.cnblogs.com/kaituorensheng/p/3595879.html

判断是否包含中文

def contain_zh(word):
    zh_pattern = re.compile(u'[\u4e00-\u9fa5]+')
    word = word.decode()
    match = zh_pattern.search(word)
    return match

提取中文

def remain_zh(word):
    zh_pattern = re.compile(u'[^\u4e00-\u9fa5]+')
    word = word.decode()
    word = re.sub(zh_pattern,"", word)
    return word

中文分词

使用模块jieba。安装pip install jieba

import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

Full Mode: 我来到北京清华清华大学华大大学

Default Mode: 我来到北京清华大学

posted @ 2017-06-14 15:56 匡子语阅读(1470) 评论(0) 收藏举报

刷新页面返回顶部

匡子语

【python】中文提取，判断，分词

公告