随笔分类 -  $数据分析与挖掘

挖掘蕴藏在数据冰山下的价值。
摘要:每年我国政府都会发布年度政府工作报告,而报告中出现最多的TopN关键词都会成为媒体热议的焦点,更是体现了过去一年和未来政府工作的重点和趋势。那么突发奇想,从60多年间的政府工作报告中可以看出来什么样的变迁呢?说干就干,下面就是实现这一想法的历程。 阅读全文
posted @ 2017-08-23 23:57 AzureSky 阅读(1905) 评论(0) 推荐(0) 编辑
摘要:numpy基本知识。 阅读全文
posted @ 2017-08-17 22:46 AzureSky 阅读(637) 评论(0) 推荐(0) 编辑
摘要:numpy库是python的一个著名的科学计算库,本文是一个quickstart。 阅读全文
posted @ 2017-08-13 18:10 AzureSky 阅读(555) 评论(0) 推荐(0) 编辑
摘要:初识matplotlib库。 阅读全文
posted @ 2017-07-24 08:17 AzureSky 阅读(424) 评论(0) 推荐(0) 编辑
摘要:在[好玩的分词——分析一下《三体》全集](http://www.cnblogs.com/jiayongji/p/7119072.html)一文中,通过分词获取到了三体全集文本中topn的词及词频,那么本文中进一步用词云的形式来展现出来。 阅读全文
posted @ 2017-07-04 23:27 AzureSky 阅读(1461) 评论(0) 推荐(0) 编辑
摘要:《三体》是一部很好看的硬科幻作品,当初是一口气把三部全都看完的,包括《三体1》、《三体2:黑暗森林》和《三体3:死神永生》,洋洋洒洒几十万字,那看的叫一个酣畅淋漓。本文就使用jieba分词,对《三体》三部曲全集文本做一些有趣的分析,涉及到分词和词频分析等。 阅读全文
posted @ 2017-07-04 23:24 AzureSky 阅读(3492) 评论(0) 推荐(0) 编辑
摘要:jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。 阅读全文
posted @ 2017-07-04 23:22 AzureSky 阅读(80326) 评论(7) 推荐(10) 编辑
摘要:本文通过一个简单的例子:预测房价,来探讨怎么用python做一元线性回归分析。 阅读全文
posted @ 2017-07-04 23:10 AzureSky 阅读(10258) 评论(5) 推荐(0) 编辑
摘要:本文主要介绍IPython这样一个交互工具的基本用法。 阅读全文
posted @ 2017-07-04 22:42 AzureSky 阅读(974) 评论(0) 推荐(0) 编辑