数据分析--学习笔记01

python数据分析

python数据分析工具包

Numpy, SciPy.org, matplotlib,lean,pandas,k

学习方法: 重视理论 --》勤于查阅 --》 身体力行 --》 联系实际

image-20221104203748496[4]

数据获取手段
数据仓库

将所有业务数据经汇总处理,构成数据仓库-- DW

  1. 全部事实的记录

  2. 部分维度和数据的整理-- 数据集市DM

数据库 vs 仓库

  1. 数据库面向业务存储,仓库面向主题存储 (主题:较高层次上对分析对象数据的一个完整并且一致的描述)

  2. 数据库针对应用 OLTP -- On-Line Transaction processing

  3. 仓库针对分析 OLAP -- On-Line Analysis Processing

  4. 数据库组织规范,仓库可能冗长,相对变化大,数据量大

检测与抓取

直接解析网页、接口、文件信息

python常用工具:

urllib,urllib2, requests, scrapy, PhantomJS, beautifulSoap, xpath(lxml)

填写、埋点、日志

用户填写信息

APP 或网页埋点 -- 特定流量的信息记录点

操作日志

计算

通过已有数据计算生成衍生数据

例如:统计报表信息

数据学习网站
数据竞赛网站:

Kaggel: https://www.kaggle.com/

天池: https://tianchi.aliyun.com/dataset

数据集网站:

ImageNet: https://www.image-net.org/

Open images : https://www.kaggle.com/datasets/bigquery/open-images

各领域的统计数据:

统计局、政府机构、公司财报

数据分析理论

集中趋势:均值,中位数与分位数,众数

四分位数计算方法:

Q1的位置 = (n+1) x 0.25

Q2的位置 = (n+1) x 0.5

Q3的位置 = (n+1) x 0.75

离中趋势:方差与标准差

image-20221104210040665[4]

偏态系数与峰度系数

image-20221104210155853[4]

正态分布与三大分布

image-20221104210309738[4]

抽样理论

抽样误差与精度

image-20221104210400170[4]

案例1:

image-20221104210428132[4]

案例2:

image-20221104210459466[4]

数据分类

定类(类别):根据事物离散、无差别属性进行的分类

定序(顺序):可以界定数据的大小,但不能测定差值

定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点

定比(比例):可以界定数据大小,可以测定差值,有绝对零点

单属性分析

异常值分析:离散异常值,连续异常值,常识异常值

image-20221104211221917[4]

对比分析:绝对数与相对数,时间、空间、理论维度比较

绝对数比较,

相对数比较:结构、比例、比较、动图、强度

时间、空间、经验与计划

结构分析:各组成部分的分布与规律

部分:总体 --》 静态 动态

分布分析:数据分布频率的显式分析

posted @ 2022-11-04 21:17  逆流的鱼2016  阅读(18)  评论(0编辑  收藏  举报