文件方式实现完整的英文词频统计实例
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
fo=open('gc.txt','r') g=fo.read() //读字符串 fo.close() g=g.lower() for i in ',.': g=g.replace(i,' ') words=g.split(' ') //分解提取单词 di = {} //计数字典 pc={'','you','i','on','up','to','and','that','the','my'} words.sort() //排序 disc = set(words)-pc //排除语法型词汇 for n in disc: di[n] = words.count(n) w= list(di.items()) w.sort(key= lambda x:x[1],reverse=True) print(w[0:19]) //输出top20