文件方式实现完整的英文词频统计实例

可以下载一长篇的英文小说,进行词频的分析。

1.读入待分析的字符串

2.分解提取单词 

3.计数字典

4.排除语法型词汇

5.排序

6.输出TOP(20)

7.对输出结果的简要说明。

fo=open('C:\\text.txt','r')
news=fo.read()         #读入待分析的字符串 
fo.close()
news.lower()          #字符串处理
for i in '.,:;?!-_':
    news.replace(i,' ')

news=news.split(' ')        #分解提取单词

exp={'the','of','and','to','a','in','at','for','with','an','has','that','will','should','is','its','he','have','on','each','during','as'}#排除语法型词汇
word=set(news)-exp

dic={}                     #计数字典
for i in word:
    dic[i]=news.count(i)
news=list(dic.items())

news.sort(key=lambda x:x[1],reverse=True)      #排序
for i in range(10):
    print(news[i])

从短文可知道,中国在国际间的和平和发展中发挥着重要的角色,是不可替代的。

 

posted on 2017-09-27 20:28  072苏喜虹  阅读(135)  评论(0)    收藏  举报

导航