随笔分类 - Python文本分析
文本情感;舆情分析
摘要:文件打开 1 contents = open("file_name.txt","rb").read().decode("gbk").encode("utf8") 2 contents2 = open("file_name.txt","rb",encoding = "utf8").read().dec
阅读全文
摘要:加载自定义语料库: 1 from nltk.corpus import PlaintextCorpusReader 2 corpus_root = '/tmp' #路径 3 wordlists = PlaintextCorpusReader(corpus_root, '.*') #可以是a.txt
阅读全文
摘要:BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: from sklearn.feature_extraction.text import CountVectorizer as cv bows = cv(mi
阅读全文
摘要:中文分词后文档转换成英文处理,代码: paths = r"路径" #文件名0.txt posts = [open(os.path.join(paths,f)).read() for f in os.listdir(paths)] #打开方式1 # 中文分词/写入分词后的文件 pathsCut = r
阅读全文

浙公网安备 33010602011771号