Python结巴分词
python做的好的分词应该就是结巴分词了,不但速度快,还可以自定义词库,对于SE来说一般应用于词库的维护,比如,通过分词后可以根据词性去除掉停词,再根据TF-IDF过滤高频词(没用的),还得做一些拼错的,多种称呼其实一样的的等也得做一下分类。最后就是关键词分类了,分类我是人工的,太失败了是吧,见笑,像我连阿里巴巴国际站也做,我这个行业的关键词的分类还好,特征比较明显,主要可能是英文的关系吧,不过还是有很多遗漏。下面是篼雨python的结巴分词代码:
运行结果如下:
1 #-*-coding:utf-8-*- 2 import sys 3 import jieba 4 import jieba.analyse 5 reload(sys) 6 sys.setdefaultencoding("utf-8") 7 def fenci(a): 8 for line in a: 9 url=line.rstrip() #rstrip() 删除 string 字符串末尾的指定字符(默认为空格) 10 jiegou=jieba.analyse.extract_tags(url,3) #提取关键词 11 n=','.join(jiegou) #生成字符串 12 op_word_txt.write(n+'\n') 13 print u'写入成功' 14 15 if __name__ == '__main__': 16 a=open('daifenci.txt','r') 17 op_word_txt=open('top_fenci.txt','a') 18 fenci(a)
小弟非科班出生,如有什么错误,请指点,另篼雨的博客之后会继续慢慢更新一些SEO相关小脚本!Thank you!


浙公网安备 33010602011771号