中文词频统计与词云生成
中文词频统计
1. 下载一长篇中文小说。
《 神雕侠侣》金庸
2. 从文件读取待分析文本。
text=open('artical.txt',encoding='utf-8').read();
e=''',,.。??!!-::《》< >"“”、\n \r \u3000 \ufeff'''for i in e: text=text.replace(i,"")3. 生成词频统计
代码
dict={}
for i in tokens: if i not in dict: dict[i]=tokens.count(i)print(dict)('杨过', 816),
('孙婆婆', 720),
('师父', 240),
('小龙女', 216),
('少女', 192),
('婆婆', 168),
('一个', 168),
('孩子', 168),
('不知', 144),
('只是', 144),
('自己', 120),
('罢', 120),
('却', 120),
('老妇', 120),
('声音', 120)
4. 排除语法型词汇,代词、冠词、连词等停用词。

5. 输出词频最大TOP20,把结果存放到文件里
result=[]
for i in range(20): result.append(word[i])pd.DataFrame(data=result).to_csv('f.csv',encoding='utf-8')print(result)6. 生成词云。

posted on 2019-03-25 17:28 hyf751190951 阅读(117) 评论(0) 收藏 举报
浙公网安备 33010602011771号