学习数据分析的步骤

一、做几个小项目学习使用数据

  1. 使用已有的数据集
  2. 自己使用爬虫获取想要的数据

可视化

  1. 数据量较少,可以使用excel可视化
  2. 数据量较多,可以使用python可视化

二、统计学知识

使用简单的可视化形式进行数据分析,会发现得到的知识并不是很多,想要做更精细化的分析,就需要补充统计学知识。

在具体的数据分析中,主要用到统计方面的以下知识:

  • 基本的统计量:均值、中位数、众数、方差、标准差、百分位数
  • 概率分布:几何分布、二项分布、泊松分布、正态分布、高斯分布
  • 总体和样本:了解基本概念,抽样的概念
  • 置信区间和假设检验:如何进行验证分析
  • 相关性与回归分析:一般数据分析的基本模型。

假设检验可以对一些感性的假设做出更加精确的检验。
回归分析可以对未来的一些数据,缺失的数据进行基本的预测。
懂了统计学的基本原理,可能还是不会自己通过工具实现,可以先了解别人相关的实现方法。

三、数据清洗

得到的数据可能有重复、缺失、异常值等。使用pandas可以应对一般的数据清洗任务。需要掌握的知识点有:

  • 选择:数据访问(标签、特定值、布尔索引)
  • 缺失值处理:对缺失数据行进行删除或填充
  • 重复值处理:重复值判断与删除
  • 空格和异常值处理:清楚不必要的空格和极端、异常数据
  • 相关操作:描述性统计、apply、直方图
  • 合并:符合各种逻辑关系的合并操作
  • 分组:数据划分、分别执行函数、数据重组
  • Reshaping:快速生成数据透视表

四、Python中一些好用的库

Pandas、Numpy(数组运算)、scipy(假设检验)、scikit-learn(实现完整的数据分析建模)

五、使用数据库来进行大量数据的分析

在对量很大的数据进行分析时,Excel会显得力不从心。

数据库可以很方便的存储大量的数据,因此对数据库的增删改查必须要学会。

数据的分组聚合、如何建立多个表之间的联系,这些SQL的进阶操作,使得在处理多维度,多个数据集的时候非常有用。

六、数据分析思维

对业务本身了解,可以在数据思维的养成方面更具优势,能够知道哪些因素、哪些数据是相对来说更重要的,这样在分析中,就可以更加容易的找出重要的问题,也更清楚应该从哪些方面入手,这个就是问题定义并建模的过程。

有趣的是:问题定义本来是数据分析的第一个步骤,但是往往都需要经过很多的实战训练才能学会。

比如数据分析的通常步骤为:

  • 我想要分析什么,目的是什么?
  • 需要哪些数据?是否有现成的数据能提供支持?
  • 数据获取和数据分析
  • 进行分析

七、通向更高的维度

如果不满足做基础的数据分析,想做一些数据挖掘、机器学习,就需要了解更高级的数据分析算法,比如决策树、随机森林、支持向量机、神经网络等,光了解算法还不够,还需要学习如果进行模型的优化,如何通过特征工程、模型融合提升预测的精准度。

posted @ 2022-01-15 11:13  苏时运  阅读(129)  评论(0编辑  收藏  举报