• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
J芷璇
博客园    首页    新随笔    联系   管理    订阅  订阅

文件方式实现完整的英文词频统计实例

可以下载一长篇的英文小说,进行词频的分析。

1.读入待分析的字符串

2.分解提取单词 

3.计数字典

4.排除语法型词汇

5.排序

6.输出TOP(20)

7.对输出结果的简要说明。

fo=open('text.txt','r')
news=fo.read()
fo.close()
news=news.lower()#字符串处理
print('大写变成小写:',news)
for i in ',?!':
    news=news.replace(i,' ')
words=news.split(' ')#提取单词
print('替换结果:',words)
exp={'','the','and','to','on','s','a','is','”','“'}#定义一个新的集合

dic={}#定义新的字典
keys=set(words)-exp#键的集合,排除词法型词汇

for w in keys:
    dic[w]=words.count(w)#单词计数字典
print('计数结果:',dic)

wc=list(dic.items())#单词计数元组的列表
wc.sort(key=lambda x:x[1],reverse=True)#列表排序
print('排序结果:',wc)

print('top 20:')#输出TOP前20元组
for i in range(20):
    print(wc[i])

部分截图:

 

posted @ 2017-09-27 16:09  089江芷璇  阅读(140)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3