文件方式实现完整的英文词频统计实例


可以下载一长篇的英文小说,进行词频的分析。


1.读入待分析的字符串


2.分解提取单词 


3.计数字典


4.排除语法型词汇


5.排序


6.输出TOP(20)


7.对输出结果的简要说明。


#
读入待分析的字符串 s= fo.read() fo.close() #将所有大写转换为小写 s=s.lower() #将所有将所有其他做分隔符(,.?!)替换为空格 for i in ',.': s=s.replace(i,' ') #分隔出一个一个单词 words=s.split(' ') #排除语法型词汇 exp = {'','the','and','to','in','of','s','on','is','u','as','also'} #计数字典 dic = {} keys = set(words)-exp for s in keys: dic[s] = words.count(s) #排序 wc = list(dic.items()) wc.sort(key = lambda x:x[1],reverse=True) for i in range(20): print(wc[i])

 

 

posted on 2017-09-27 20:08  122叶远超  阅读(127)  评论(0编辑  收藏  举报

导航