数据分析基础笔记 - 流程和思路

一、流程和思路

  1. 提出问题

  2. 收集数据

    • 数据源:
      • 观测和统计得到的数据
      • 问卷和调研得到的数据
      • 从数据库中获取的数据 - 数据库: 存储数据的一种结构
      • 从网络爬虫获取的数据
  3. 数据处理和清洗

  4. 数据分析

    • 描述性分析目的:找出数据的大致分布状态,进行单个因素分析
    • 探索性分析 
      • 三大作用:分析现状、分析原因、预测未来
      • 三个基本思路:对比、细分、预测
        • 对比
          • 直接根据数据高低分析差异
          • 同比和环比:
            • 同比:本期数据和过往的同一期数据进行对比。例如:2020年Q2的数据和2019年Q2的数据对比
            • 环比:本期数据和连续周期的上一期数据的对比。例如:2020年Q2的数据和2020年Q1的数据对比
        • 细分:将数据分成不同的部分,从而对比内部各个部分之间异同和关系的思路
          • 对比量的大小
          • 对比内部结构:某个部分比例越大,说明重要程度越高
          • 单一的维度上:
            • 不断细分,进行维度下钻
            • 不断添加新的维度,进行维度交叉
          • 杜邦分析法:将想要分析的一个指标,不断拆解味所有影响他的细分指标,分析细分指标的变动。
        • 预测:需要通过三个模型来实现
          • 相关性分析
          • 回归分析
          • 时间序列模型

二、课后练习

题目:一组数据存储在列表中,取该数据的中位数, 并格式化输出收入数据的中位数。

Numbers = [1, 50, 51, 52, 53, 54, 55, 56, 57, 58, 60, 61, 63, 64, 65, 67, 69, 70, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 959]

length = len(Numbers)

if length%2==0:
    n = length//2
    Median = (Numbers[n]+Numbers[n-1])/2
    print(f"收入中位数为{Median}")
else:
    n = length / 2 + 1
    Median = Numbers[n]
    print(f"收入中位数为{Median}")

 

posted @ 2023-02-27 15:16  blanolic  阅读(41)  评论(0)    收藏  举报