摘要: 中医上讲看病四诊法为:望闻问切。而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样;闻:仔细分析数据是否合理;问:针对前两步工作搜集到的问题与业务方交流;切:结合业务方反馈的结果和项目需求进行数据分析。"望"的方法可以认为就是制作数据可视化图表的过程,而数据分布图无疑是非常能反映数据特征(用户症状)的。R语言提供了多种图表对数据分布进行描述,本文接下来将逐一讲解... 阅读全文
posted @ 2016-04-25 14:52 穆晨 阅读(114763) 评论(3) 推荐(6) 编辑
摘要: 散点图通常是用来表述两个连续变量之间的关系,图中的每个点表示目标数据集中的每个样本。同时散点图中常常还会拟合一些直线,以用来表示某些模型... 阅读全文
posted @ 2016-04-23 10:40 穆晨 阅读(78645) 评论(0) 推荐(5) 编辑
摘要: 报表制作流程的第一步显然是从各个数据源导入数据,Power BI能从很多种数据源导入数据:如Excel,CSV,XML,以及各类数据库(SQL Server,Oracle,My SQL等),两大主流开源平台(Hadoop,Spark)等等。本文篇幅所限,无法一一说明,仅就网页获取数据的方式进行讲解(其他方式大同小异)。然后... 阅读全文
posted @ 2016-04-16 15:46 穆晨 阅读(32493) 评论(7) 推荐(3) 编辑
摘要: "可视化之工具,可爱者甚蕃。统计学家独爱R,自Python来,世人盛爱matplotlib。余独爱Power BI之出微软而不染(免费),濯Office而不妖(够精简)......."。先开个玩笑,哈哈^_^。本文向大家介绍微软公司最近发布的可视化神器 - PowerBI。将重点讲解它的主要功能,和同类可视化工具的对比,以及它的基本使用方法。本系列后面的文章则将针对该工具的具体使用进行详细而深入的讲解... 阅读全文
posted @ 2016-04-14 12:34 穆晨 阅读(43709) 评论(15) 推荐(10) 编辑