Python结巴分词

python做的好的分词应该就是结巴分词了，不但速度快，还可以自定义词库，对于SE来说一般应用于词库的维护，比如，通过分词后可以根据词性去除掉停词，再根据TF-IDF过滤高频词（没用的），还得做一些拼错的，多种称呼其实一样的的等也得做一下分类。最后就是关键词分类了，分类我是人工的，太失败了是吧，见笑，像我连阿里巴巴国际站也做，我这个行业的关键词的分类还好，特征比较明显，主要可能是英文的关系吧，不过还是有很多遗漏。下面是篼雨python的结巴分词代码：

运行结果如下：

然后还是放一下文本代码：复制有误就直接敲一下代码吧！

 1 #-*-coding:utf-8-*-
 2 import sys
 3 import jieba
 4 import jieba.analyse
 5 reload(sys)
 6 sys.setdefaultencoding("utf-8")
 7 def fenci(a):
 8     for line in a:
 9         url=line.rstrip()   #rstrip() 删除 string 字符串末尾的指定字符（默认为空格）
10         jiegou=jieba.analyse.extract_tags(url,3)  #提取关键词
11         n=','.join(jiegou)   #生成字符串
12         op_word_txt.write(n+'\n')
13         print u'写入成功'
14  
15 if __name__ == '__main__':
16     a=open('daifenci.txt','r')
17     op_word_txt=open('top_fenci.txt','a')
18     fenci(a)

小弟非科班出生，如有什么错误，请指点，另篼雨的博客之后会继续慢慢更新一些SEO相关小脚本！Thank you！

posted @ 2017-04-13 16:02 l4617 阅读(144) 评论(0) 收藏举报

刷新页面返回顶部

leo力鸥

Python结巴分词

公告