文件方式实现完整的英文词频统计实例
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
fo=open('text.txt','r') news=fo.read() fo.close() news=news.lower()#字符串处理 print('大写变成小写:',news) for i in ',?!': news=news.replace(i,' ') words=news.split(' ')#提取单词 print('替换结果:',words) exp={'','the','and','to','on','s','a','is','”','“'}#定义一个新的集合 dic={}#定义新的字典 keys=set(words)-exp#键的集合,排除词法型词汇 for w in keys: dic[w]=words.count(w)#单词计数字典 print('计数结果:',dic) wc=list(dic.items())#单词计数元组的列表 wc.sort(key=lambda x:x[1],reverse=True)#列表排序 print('排序结果:',wc) print('top 20:')#输出TOP前20元组 for i in range(20): print(wc[i])
部分截图:

浙公网安备 33010602011771号