文件方式实现完整的英文词频统计实例
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
fo=open('C:\\text.txt','r') news=fo.read() #读入待分析的字符串 fo.close() news.lower() #字符串处理 for i in '.,:;?!-_': news.replace(i,' ') news=news.split(' ') #分解提取单词 exp={'the','of','and','to','a','in','at','for','with','an','has','that','will','should','is','its','he','have','on','each','during','as'}#排除语法型词汇 word=set(news)-exp dic={} #计数字典 for i in word: dic[i]=news.count(i) news=list(dic.items()) news.sort(key=lambda x:x[1],reverse=True) #排序 for i in range(10): print(news[i])

从短文可知道,中国在国际间的和平和发展中发挥着重要的角色,是不可替代的。
浙公网安备 33010602011771号