中文词频统计及词云制作

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

    答:

         1.大数据的发展前景和应用?

          2.做Python开发工程师要具备什么资质?

2.中文分词

刚刚过去的几天里,多地楼市调控力度再加码,限购、限售力度再度增强。业内人士表示,目前各地仍在"打补丁",全方位封堵任何炒房的可能性,从而遏制房价过快上涨,房地产去投资化趋势愈加明显。
23日,石家庄市人民政府关于加强房地产市场调控的补充意见指出,非本市户籍居民家庭购首套房需3年内连续24个月缴税证明或社保记录,限购1套住房。需注意的是,自发文日起,非本市户籍购房者与本市户籍购房者均执行新购住房需满足5年内不得上市交易,购房时间以网签备案为准。
此外,重庆、南宁、长沙、南昌、贵阳、武汉等地也集中发文加码楼市调控。长沙市住建委22日发布新政,市行政区购买商品房取得不动产权证书3年后才能再次出售。非本市户籍购房者在满足24个月以上缴税或社保的条件下,限购1套住房。
重庆市国土房管局出台《关于加强主城区新购住房再交易管理的通知》,指出自23日起,重庆市主城区新购新建商品住房和二手住房须取得不动产权证满两年后才能上市交易。
南宁下发《关于进一步加强房地产市场调控促进房地产市场平稳健康发展的补充通知》,企事业单位、社会组织等法人单位在南宁市区(不含武鸣区)购买第二套及以上住房的,须取得不动产权证书满两年后方可转让,政策有效期为五年。
南昌发布新政指出,对于限房价、竞地价方式土地的商品房,限制出售对象为本市户籍无房成年市民,限购一套,并5年内不得转让。其余住宅需满足取得不动产权证2年方可转让。
武汉方面,对开发商区别对待全款和贷款购房行为给予叫停,以促进增加住房供应。
中原地产市场总监张大伟表示,房地产调控已从过去的结果调控模式转向预期调控。

 

下载一中文长篇小说,并转换成UTF-8编码。
使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

import jieba
fo = open('xiaoshuo.txt','r')
words = fo.read()
new = jieba.cut(words,cut_all = True)
news = list(new)

print(news)

exp = {'','','','','','','','','2','\n','','','','','','','','','','','','','','','',''}

dic = {}
keys = set(news) - exp
for i in keys:
    dic[i] = words.count(i)


wc = list(dic.items())
wc.sort(key = lambda x:x[1],reverse = True)#函数定义
for i in range(20):
    print(wc[i])

fo.close()


**排除一些无意义词、合并同一词。

exp = {'','','','','','','','','2','\n','','','','','','','','','','','','','','','',''}

dic = {}
keys = set(news) - exp

 


**使用wordcloud库绘制一个词云。


#coding:utf-8
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt


text =open(r"C:\Users\Administrator\Desktop\sheng.txt",'r').read()


wordlist = jieba.cut(text,cut_all=True)
wl_split = "/".join(wordlist)


mywc = WordCloud().generate(text)
plt.imshow(mywc)
plt.axis("off")
plt.show()

 

 


(**两项选做,此次作业要求不能雷同。)

posted on 2017-09-25 14:13  huanglinsheng  阅读(196)  评论(0编辑  收藏  举报

导航