文件方式实现完整的英文词频统计实例
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
fo=open('text.txt','r')//读取文件的内容 news=fo.read() fo.close()
news=news.lower()//大写转小写 for i in ',.?!''""\n'://空格代替,.''""\n!? news=news.replace(i,' ') words=news.split(' ')//单词列表 exp={'the','i','and','on','for','that','to','of'}//不统计的单词的集合 dic={} keys=set(words)-exp for w in keys: dic[w]=words.count(w)//单词计数字典 wc=list(dic.items())//(单词,计数)元组的列表 wc.sort(key=lambda x:x[1],reverse=True)//排序 print(wc) print("输出TOP(20):")//输出TOP20元组 for i in range(20): print(wc[i])

浙公网安备 33010602011771号