数据分析基础笔记 - 流程和思路
一、流程和思路
-
提出问题
-
收集数据
- 数据源:
- 观测和统计得到的数据
- 问卷和调研得到的数据
- 从数据库中获取的数据 - 数据库: 存储数据的一种结构
- 从网络爬虫获取的数据
- 数据源:
-
数据处理和清洗
-
数据分析
- 描述性分析,目的:找出数据的大致分布状态,进行单个因素分析
- 探索性分析
- 三大作用:分析现状、分析原因、预测未来
- 三个基本思路:对比、细分、预测
- 对比
- 直接根据数据高低分析差异
- 同比和环比:
- 同比:本期数据和过往的同一期数据进行对比。例如:2020年Q2的数据和2019年Q2的数据对比
- 环比:本期数据和连续周期的上一期数据的对比。例如:2020年Q2的数据和2020年Q1的数据对比
- 细分:将数据分成不同的部分,从而对比内部各个部分之间异同和关系的思路
- 对比量的大小
- 对比内部结构:某个部分比例越大,说明重要程度越高
- 单一的维度上:
- 不断细分,进行维度下钻
- 不断添加新的维度,进行维度交叉
- 杜邦分析法:将想要分析的一个指标,不断拆解味所有影响他的细分指标,分析细分指标的变动。
- 预测:需要通过三个模型来实现
- 相关性分析
- 回归分析
- 时间序列模型
- 对比
二、课后练习
题目:一组数据存储在列表中,取该数据的中位数, 并格式化输出收入数据的中位数。
Numbers = [1, 50, 51, 52, 53, 54, 55, 56, 57, 58, 60, 61, 63, 64, 65, 67, 69, 70, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 959] length = len(Numbers) if length%2==0: n = length//2 Median = (Numbers[n]+Numbers[n-1])/2 print(f"收入中位数为{Median}") else: n = length / 2 + 1 Median = Numbers[n] print(f"收入中位数为{Median}")

浙公网安备 33010602011771号