复合数据类型,英文词频统计

1.列表,元组,字典,集合分别如何增删改查及遍历

列表:

 

 元组:

 

字典:

集合:

遍历函数都相同,其下格式为:

function.sort()#function可以是列表、元组、字典或者集合任意一种
for i in function:
    print(i,end='>')

 

2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:

3.词频统计

  • 1.下载一长篇小说,存成utf-8编码的文本文件 file

    2.通过文件读取字符串 str

    3.对文本进行预处理

    4.分解提取单词 list

    5.单词计数字典 set , dict

    6.按词频排序 list.sort(key=lambda),turple

    7.排除语法型词汇,代词、冠词、连词等无语义词

    • 自定义停用词表
    • 或用stops.txt

       8.输出TOP(20)

  • 9.可视化:词云

 排序好的单词列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

线上工具生成词云:
https://wordart.com/create

在线词云:

 



posted on 2019-03-22 14:57  zhouyihan  阅读(134)  评论(0)    收藏  举报

导航