一、数据分析概念

分类:

描述性数据分析(初级数据分析,对比分析法、平均分析法、交叉分析法)探索性数据分析,验证性数据分析( 这俩均属于高级数据分析, 相关分析、因子分析、回归分析)

作用:

现状分析,原因分析,预测分析

步骤:

1. 明确分析目的和思路:分析框架体系化: 营销(4P,用户使用,STP理论,SWOT)管理(PEST,5W2H,时间管理、生命周期、逻辑树、金字塔、SMART 原则)

2. 数据收集

3. 数据处理: 数据清洗、数据转化、数据提取、数据计算

4. 数据分析:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗分析法、综合评价分析法、因素分析法、矩阵关联分析法

5. 数据展现

6. 报告撰写

 

数据挖掘:

高级的数据分析方法: 分类、聚类、关联和预测

术语:

平均数,绝对数与相对数,百分比与百分点,频数与频率,比例与比率,倍数与番数,同比与环比

二、数据准备

1. 二维表转一维表(mac中无法实现)

添加“数据透视表与数据透视图向导”: 文件-选项-自定义功能区-下列位置选择命令(不在功能区中的命令)找到“数据透视表与数据透视图向导”-添加到-“自定义功能区”(主选项卡(数据(添加新建组)))

打开“数据透视表与数据透视图向导” - “多重合并计算数据区域”-“创建单页字段”-选定区域并添加-新建工作表-取消列和行的√ -双击汇总

 

2. 导入文本数据:

从文本

从网站 : 刷新数据(即时刷新:数据-刷新/单元格右键刷新、定时刷新:单元格右键-“数据范围属性”-“外部数据区域属性”-“刷新频率”、打开文件时自动刷新:同上、数据区域又下角)

 

3.问卷:

二分法,多重分类法

 

三、数据处理

数据清洗

1. 重复数据的处理

检查重复项:

(1) countif(A:A,A2) & COUNTIF(A$2:A2,A2) 

(2)数据-排序和筛选-高级-高级筛选-将筛选结果复制到其他位置- 勾选(选择不重复的记录)

(3)开始-条件格式-突出显示单元格规则-重复值

(4) 数据透视表-计算数据重复的频次

删除重复项:

(1)数据-数据工具-删除重复项-选择删除的列

(2) 从COUNTIF(A$2:A2,A2) 结果中   开始-编辑部分-排序和筛选-降序-删除不等于1的项

(3)COUNTIF(A$2:A2,A2) 结果-数据-排序和筛选-筛选-选出不等于1的

 

2.缺失数据的处理

可以接受的缺失值在10%以下:

缺失值寻找:定位输入:开始-编辑-定位条件/ ctrl+G-空值-确定( mac 中 fn+f5)

缺失值处理:

(1)平均值替代、用统计模型算出的值去替代、删除有缺失值的记录、保留但统计过程中不考虑

(2)windows:ctrl+enter 选择缺失值区域  mac: command +enter  (command 选中 输入 command + enter)

(3)查找替换

 

3. 检查逻辑错误

(1) if 函数

(2)or 函数: 选中区域-开始-条件格式-突出显示单元格规格-其他规则-使用公式确定要设置的单元格-为符合此公式的值设置格式-'=OR(B3=1,B3=0)=FALSE’ 

(3)and 函数 

 

数据加工

1.数据抽取

  字段分列:

(1)数据-分列-分隔符-(空格)

(2)left(文本,左边几位数) right(a,右边位数)

  字段合并:(1)& ;(2)concatenate(); 如果是数值应用text()转换成字符串  text(b3,'0%)

  字段匹配:(1)Vlookup(值,范围,列数,1): 1近似匹配<=,0 精确匹配; (2) 空格用trim()函数去掉 (3) 注意格式转换

2. 数据计算

(1)求和 sum() /开始-编辑-自动求和-求和

(2)平均值 average()

(3)当前日期 today()   当前时间  now()  添加年月日组合 date(年,月,日) year() month() day()

(4)datedif(起始日期,结束日期,unit) unit: Y/M/D/MD/YM/YD: md忽略月,ym忽略年,yd 忽略年

 

3. 数据分组

(1)vlookup()

(2)if()

4.数据转换

(1) 行列转换: 选择性粘贴-转置

(2)问卷多选题 ,多重分类法 转二分类法 hlookup(值,区域,行数,1/0) , isnumber(), if(),search(要查找的字符串,被查找的字符串,从第几个字符开始查找) 

 

数据抽样

普查 + 抽样调查   rand() 后 F9 则生成的随机数将永久保存,不再返回新的数值

【a,b】=> rand()*(b-a)+a

保持标题不动: 视图-冻结窗格

 

四、数据分析

现状分析(对比) ,原因分析(细分) 预测分析(预测)

4.1 分析方法

1.对比分析:静态比较和动态比较

  (1) 与目标对比

  (2)  不同时期对比

  (3)同级部门、单位、地区对比 横比

  (4)行业内对比 横比

  (5)活动效果对比 纵比

2. 分组分析:必须与对比分析相结合

3. 结构分析:被分析总体内部与总体之间进行对比

4.平均分析:计算平均数

5.交叉分析:二维表

6. 综合评价分析:

  (1)确定包含哪些指标

  (2)收集数据,进行标准化处理: 0-1标准化(离差标准化),z标准化

  (3)确定指标权重:专家访谈法,德尔菲法,层次分析法,主成分分析法,因子分析法,回归分析法,目标优化矩阵P112

  (4)进行汇总,计算出评价分值

  (5) 进行排序

7. 杜邦分析法

8.漏斗图分析法 :适用于 业务流程比较规范,周期比较长,各流程环节涉及复杂业务比较多

9.矩阵关联分析法

10.高级数据分析方法 P120

4.2 数据分析工具

数据透视图:

(1)百分比计算:添加到列标签-总计单元格右键-值显示方式-列汇总的百分比

(2)同比与环比

(3)数据分组统计

 

五、数据展现

数据间关系:成分(饼图,柱形图,条形图,瀑布图……),排序(柱形图,条形图,气泡图,帕累托图……),时间序列(柱形图,折线图……),频率分布(柱形图,条形图,折线图……),相关性(柱形图,对称条形图(旋风图)条形图,散点图,气泡图……),多重数据比较(雷达图)

1. 确定要表达的主题或目的

2. 确定哪种图标最适合你的目的

3.选择数据制作图标

4. 检查是否真实有效地展示数据

5.检查是否表达了你的观点

 

表格

1. 条件格式-突出显示单元格规则/项目选取/数据条/图标集

2. 插入-迷你图 -设计-标记颜色

3.平均线图-加一行数据一样的平均值-构建柱形图-更改平均值得图标类型为折线图

4. 双坐标图 -先建立柱形图-将一个右击-设置数据格式-次坐标轴

5. 双柱图-双坐标轴: 加入2-3个为0 的占位列 来消除重叠的情况  

6.纵向坐标轴标签 纵向文本框改为横向文本框   双击文本框- 对其方式-文字方向-横排

7.竖行折线图(蛇形图):插入带平滑线和数据标记的散点图 P157 难

8.瀑布图:堆积柱形图- 把占位栏设为无填充-无线条

9.帕累托图: P160 较难

10.旋风图

11.人口金字塔  与旋风图 类似

12. 漏斗图

13.矩阵图

14. 发展矩阵图  添加箭头是在右击  设置趋势序列格式里面  

15.改进难易矩阵

图表改进

标题(最好一句话)、图例、单位、脚注、资料来源,

(1)饼图: 最重要的成分要靠近12点钟的位置 ,并且从那开始排列 数据表现在5项以内,不要使用图例,不要过分饼图分离,推荐用白色的边框线,因为具有比较好的切割感

(2)柱形图: 同一数据序列使用相同的颜色,不要使用倾斜的标签,纵坐标一般从0开始,一般使用数据标签,并且拒绝使用网格线

(3)条形图:尽量从大到小排列,不要使用倾斜的标签,最好添加数据标签,统一数据序列使用相同的颜色

(4)折现图:线型要相对粗一些,比网格线,坐标轴等更加突出,线条一般不超过5条,不要使用倾斜的标签,预测值最好用虚线表示

六、数据分析报告

规范性,重要性,谨慎性,创新性

展示分析结果,验证分析质量,提供决策参考

专题分析报告,综合分析报告,日常数据通报