上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。
这里一共分析了三个方面:TOP10 word;时间与发帖量的关系,日期与发帖量的关系。
PROJECT1:TOP10 WORD
注意这里的top_words.txt是我用xlrd取出文字后保存在记事本中,去掉标点后得到的(这个羞耻的过程就不展示了。。。以后找到更好的办法再来改写)
#!/usr/bin/python
#-*- coding : utf-8 -*-
import xlrd
import xlsxwriter
from collections import Counter
with open('top_words.txt', encoding='utf-8') as f:
# print(f.read())
l = list(f.read())
print(l)
word_dict = Counter(l).most_common()
# print(word_dict)
workbook = xlsxwriter.Workbook('top_words.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', 10)
worksheet.set_column('B:B', 10)
worksheet.write(0,0,'关键字')
worksheet.write(0,1,'频数')
i = 1
num = []
for k, v in word_dict:
i += 1
worksheet.write(i,0,k)
worksheet.write(i,1,v)
num.append(v)
workbook.close()
print(num)
输出EXCEL表格如下(一部分):

简单做个图:


浙公网安备 33010602011771号