文件方式实现完整的英文词频统计实例
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
#读入待分析的字符串 s= fo.read() fo.close() #将所有大写转换为小写 s=s.lower() #将所有将所有其他做分隔符(,.?!)替换为空格 for i in ',.': s=s.replace(i,' ') #分隔出一个一个单词 words=s.split(' ') #排除语法型词汇 exp = {'','the','and','to','in','of','s','on','is','u','as','also'} #计数字典 dic = {} keys = set(words)-exp for s in keys: dic[s] = words.count(s) #排序 wc = list(dic.items()) wc.sort(key = lambda x:x[1],reverse=True) for i in range(20): print(wc[i])