数据分析
数据分析步骤
- 提出问题
- 收集数据
- 数据处理和清洗
- 数据分析
- 可视化、得出结论
1. 提出问题
先确定问题是什么,再投入精力从相关的数据中挖掘答案。
一个好的问题,可以帮助理清方向,将精力集中在数据的相关部分,并帮助你得出有洞察力的分析结果。
例如:
1. 学员想学Python数据分析的目的是什么呢?分别有多少呢?
可以提出:
- 如果是学生,在读学历的分布是怎么样的呢?
- 如果是学生,都有什么专业呢?
- 学员想学Python数据分析的目的是什么呢?分别有多少呢?
2. “从事不同工作的上班族,学习的目的会有差别。”
可以提出:
- 如果是上班族,想学Python数据分析的目的是?
- 如果是上班族,从事的职业都有什么呢?
3. 不同学习目的的人,每天能花在学习Python数据分析上的时间也不一样。”
可以提出:
- 每天能花费在学习Python数据分析的时长是多少?
- 学员中,想学习Python数据分析的目的都有什么呢?
4. “是不是有些同学,已经接触数据分析?依然还来想学这门课,是因为已经使用的工具,遇到一些问题?”
可以提出:
- 目前的工作/学习中,多少人需要使用数据分析?
- 现在进行数据分析,学员都出现了什么问题呢?
2. 收集数据
通常情况下,我们想要收集数据,会有4种数据的来源:
需要根据我们希望获得数据,来判断应该从哪些来源获取。
1.观测和统计得到的数据
是指经过实地获取的实测数据。这类数据可大可小。
例如:一个商场的客流量。
这是对商场各个出入口的人员进出,按人头统计,汇总的数据,也是实地观测获得的。
只是目前会有红外感应装置来获取,不需要人工来数了。
2.问卷和调研得到的数据
是指通过抽取样本,用问卷或访谈的方式,获取的数据。
有一些需要获取到个人信息、心理感受的数据,我们需要通过询问访谈获得。
例如:不同年级的大学生最喜欢食堂的哪道菜?
3.从数据库中获取的数据
数据库,可以简单理解为储存数据的一种结构。
我们在计算机、手机上产生的操作行为,被捕捉下来会存储到数据库中。
例如:在电商平台上购买商品记录,会存储在这个电商平台的数据库中。
阿珍想了解自己的电商平台上“用户年龄和购买商品之间的关系”
4.从网络爬虫获取的数据
使用网络爬虫,按照一定规则自动抓取网页信息。组织成我们需要的数据形式。
我们想要获取的数据,并不归属自己所有的数据库
例如,想要豆瓣的电影评论。
3. 数据处理
有一些很复杂的规则和逻辑
对问卷中,填写时长少于5s的问卷数据进行了剔除。
因为填写时长少于5s,大概率是随意填写的,这一部分随便填写的数据,可能会干扰数据的有效性。
4. 数据分析
Algo统计了每个选项,使用Python进行初步分析和可视化,每个问题的答案都生成一张柱状图表
进行图表可视化的部分,是数据分析最前置的描述性分析。
是对得到的大量数据资料进行整理和归纳的初步分析方法。目的是找出数据的大致分布状态,进行单个因素分析。
探索性分析
探索性数据分析,是指仅有一些非常浅的假设,通过数据分析方法,深入探索数据。
作用 - 基本思路
- 分析现状 对比
- 分析原因 细分
- 预测未来 预测
如果缺失一些基本的数据分析思路,那么面对处理好的数据,也会不知道从何入手。
1. 对比
数据的高低,通常需要进行比较,分析它们的差异
对比可以非常直观地看出变化/差距,并且量化变化/差距是多少。
比如,相同方法调研了《Python办公效率化》的学员。明显对比看到,《Python数据分析》课程的学生占比相较更多一些。
- 同比和环比
-
同比,通常是本期数据和过往的同一期数据的对比。
例如,2020二季度GDP的同比增长,是和2019二季度GDP对比,这就是年同比。可以消除不同季度的季节因素影响。 -
环比,通常是本期数据和连续周期的上一期数据的对比。
例如,2020二季度全国GDP的环比增长,是和2020一季度对比,这就是环比。可以观测数据连续的变化趋势。
- 细分
在深入挖掘数据现状,和追溯内部原因的时候。需要在对比的基础上,进行细分分析。
细分,是指将数据划分成不同的部分,从而对比内部各个部分之间异同和关系的思路。
可以对比量的直接大小外,还可以对比内部结构。
内部结构中,某个部分的比例越大,说明其重要程度越高,影响越大。
细分是数据分析的本源。
- 一次探索性分析的过程,通常是从问题出发,不断细分对比,从而发现有洞见和针对性的结论
- 在单一的维度上,不断向下细分,进行维度下钻
- 或者,在单一的维度上,不断添加新的维度,进行维度交叉。
“杜邦分析法”:
杜邦分析的本质,就是将想要分析的一个指标,不断拆解为所有影响它的细分指标,分析细分指标的变动,从而挖掘目标的指标。
比如,一个电商平台的销量 = 浏览量 × 转化率,浏览量可以往下拆解,转化率也可以往下拆解。
- 预测
数据分析中,预测未来是一个非常重要的问题。数据之间客观上存在互相影响和依存的关系。
- 相关性分析
- 回归分析
- 时间序列模型