Python文本分析 - 随笔分类 - 陈丙丁

python文件处理小方法

摘要：文件打开 1 contents = open("file_name.txt","rb").read().decode("gbk").encode("utf8") 2 contents2 = open("file_name.txt","rb",encoding = "utf8").read().dec 阅读全文

posted @ 2017-10-28 08:44 陈丙丁阅读(229) 评论(0) 推荐(0)

NLTK笔记

摘要：加载自定义语料库： 1 from nltk.corpus import PlaintextCorpusReader 2 corpus_root = '/tmp' #路径 3 wordlists = PlaintextCorpusReader(corpus_root, '.*') #可以是a.txt 阅读全文

posted @ 2016-07-15 16:13 陈丙丁阅读(181) 评论(0) 推荐(0)

中文信息处理&机器学习-Kmeans实践

摘要：BagOfWords： 1. 见上一篇jieba分词。 2. 见上篇，读取分词后文件 3. 统计词频并表示成向量： sklearn工具包方法： from sklearn.feature_extraction.text import CountVectorizer as cv bows = cv(mi 阅读全文

posted @ 2016-06-23 11:22 陈丙丁阅读(190) 评论(0) 推荐(0)

中文转换成英文处理（文件加载&jieba分词）

摘要：中文分词后文档转换成英文处理，代码： paths = r"路径" #文件名0.txt posts = [open(os.path.join(paths,f)).read() for f in os.listdir(paths)] #打开方式1 # 中文分词/写入分词后的文件 pathsCut = r 阅读全文

posted @ 2016-06-08 10:41 陈丙丁阅读(1700) 评论(0) 推荐(0)

陈丙丁

随笔分类 - Python文本分析

公告