随笔分类 -  Python文本分析

文本情感;舆情分析
摘要:文件打开 1 contents = open("file_name.txt","rb").read().decode("gbk").encode("utf8") 2 contents2 = open("file_name.txt","rb",encoding = "utf8").read().dec 阅读全文
posted @ 2017-10-28 08:44 陈丙丁 阅读(229) 评论(0) 推荐(0)
摘要:加载自定义语料库: 1 from nltk.corpus import PlaintextCorpusReader 2 corpus_root = '/tmp' #路径 3 wordlists = PlaintextCorpusReader(corpus_root, '.*') #可以是a.txt 阅读全文
posted @ 2016-07-15 16:13 陈丙丁 阅读(181) 评论(0) 推荐(0)
摘要:BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: from sklearn.feature_extraction.text import CountVectorizer as cv bows = cv(mi 阅读全文
posted @ 2016-06-23 11:22 陈丙丁 阅读(190) 评论(0) 推荐(0)
摘要:中文分词后文档转换成英文处理,代码: paths = r"路径" #文件名0.txt posts = [open(os.path.join(paths,f)).read() for f in os.listdir(paths)] #打开方式1 # 中文分词/写入分词后的文件 pathsCut = r 阅读全文
posted @ 2016-06-08 10:41 陈丙丁 阅读(1700) 评论(0) 推荐(0)