一、数据分析概念
分类:
描述性数据分析(初级数据分析,对比分析法、平均分析法、交叉分析法)探索性数据分析,验证性数据分析( 这俩均属于高级数据分析, 相关分析、因子分析、回归分析)
作用:
现状分析,原因分析,预测分析
步骤:
1. 明确分析目的和思路:分析框架体系化: 营销(4P,用户使用,STP理论,SWOT)管理(PEST,5W2H,时间管理、生命周期、逻辑树、金字塔、SMART 原则)
2. 数据收集
3. 数据处理: 数据清洗、数据转化、数据提取、数据计算
4. 数据分析:对比分析法、分组分析法、交叉分析法、结构分析法、漏斗分析法、综合评价分析法、因素分析法、矩阵关联分析法
5. 数据展现
6. 报告撰写
数据挖掘:
高级的数据分析方法: 分类、聚类、关联和预测
术语:
平均数,绝对数与相对数,百分比与百分点,频数与频率,比例与比率,倍数与番数,同比与环比
二、数据准备
1. 二维表转一维表(mac中无法实现)
添加“数据透视表与数据透视图向导”: 文件-选项-自定义功能区-下列位置选择命令(不在功能区中的命令)找到“数据透视表与数据透视图向导”-添加到-“自定义功能区”(主选项卡(数据(添加新建组)))
打开“数据透视表与数据透视图向导” - “多重合并计算数据区域”-“创建单页字段”-选定区域并添加-新建工作表-取消列和行的√ -双击汇总
2. 导入文本数据:
从文本
从网站 : 刷新数据(即时刷新:数据-刷新/单元格右键刷新、定时刷新:单元格右键-“数据范围属性”-“外部数据区域属性”-“刷新频率”、打开文件时自动刷新:同上、数据区域又下角)
3.问卷:
二分法,多重分类法
三、数据处理
数据清洗
1. 重复数据的处理
检查重复项:
(1) countif(A:A,A2) & COUNTIF(A$2:A2,A2)
(2)数据-排序和筛选-高级-高级筛选-将筛选结果复制到其他位置- 勾选(选择不重复的记录)
(3)开始-条件格式-突出显示单元格规则-重复值
(4) 数据透视表-计算数据重复的频次
删除重复项:
(1)数据-数据工具-删除重复项-选择删除的列
(2) 从COUNTIF(A$2:A2,A2) 结果中 开始-编辑部分-排序和筛选-降序-删除不等于1的项
(3)COUNTIF(A$2:A2,A2) 结果-数据-排序和筛选-筛选-选出不等于1的
2.缺失数据的处理
可以接受的缺失值在10%以下:
缺失值寻找:定位输入:开始-编辑-定位条件/ ctrl+G-空值-确定( mac 中 fn+f5)
缺失值处理:
(1)平均值替代、用统计模型算出的值去替代、删除有缺失值的记录、保留但统计过程中不考虑
(2)windows:ctrl+enter 选择缺失值区域 mac: command +enter (command 选中 输入 command + enter)
(3)查找替换
3. 检查逻辑错误
(1) if 函数
(2)or 函数: 选中区域-开始-条件格式-突出显示单元格规格-其他规则-使用公式确定要设置的单元格-为符合此公式的值设置格式-'=OR(B3=1,B3=0)=FALSE’
(3)and 函数
数据加工
1.数据抽取
字段分列:
(1)数据-分列-分隔符-(空格)
(2)left(文本,左边几位数) right(a,右边位数)
字段合并:(1)& ;(2)concatenate(); 如果是数值应用text()转换成字符串 text(b3,'0%)
字段匹配:(1)Vlookup(值,范围,列数,1): 1近似匹配<=,0 精确匹配; (2) 空格用trim()函数去掉 (3) 注意格式转换
2. 数据计算
(1)求和 sum() /开始-编辑-自动求和-求和
(2)平均值 average()
(3)当前日期 today() 当前时间 now() 添加年月日组合 date(年,月,日) year() month() day()
(4)datedif(起始日期,结束日期,unit) unit: Y/M/D/MD/YM/YD: md忽略月,ym忽略年,yd 忽略年
3. 数据分组
(1)vlookup()
(2)if()
4.数据转换
(1) 行列转换: 选择性粘贴-转置
(2)问卷多选题 ,多重分类法 转二分类法 hlookup(值,区域,行数,1/0) , isnumber(), if(),search(要查找的字符串,被查找的字符串,从第几个字符开始查找)
数据抽样
普查 + 抽样调查 rand() 后 F9 则生成的随机数将永久保存,不再返回新的数值
【a,b】=> rand()*(b-a)+a
保持标题不动: 视图-冻结窗格
四、数据分析
现状分析(对比) ,原因分析(细分) 预测分析(预测)
4.1 分析方法
1.对比分析:静态比较和动态比较
(1) 与目标对比
(2) 不同时期对比
(3)同级部门、单位、地区对比 横比
(4)行业内对比 横比
(5)活动效果对比 纵比
2. 分组分析:必须与对比分析相结合
3. 结构分析:被分析总体内部与总体之间进行对比
4.平均分析:计算平均数
5.交叉分析:二维表
6. 综合评价分析:
(1)确定包含哪些指标
(2)收集数据,进行标准化处理: 0-1标准化(离差标准化),z标准化
(3)确定指标权重:专家访谈法,德尔菲法,层次分析法,主成分分析法,因子分析法,回归分析法,目标优化矩阵P112
(4)进行汇总,计算出评价分值
(5) 进行排序
7. 杜邦分析法
8.漏斗图分析法 :适用于 业务流程比较规范,周期比较长,各流程环节涉及复杂业务比较多
9.矩阵关联分析法
10.高级数据分析方法 P120
4.2 数据分析工具
数据透视图:
(1)百分比计算:添加到列标签-总计单元格右键-值显示方式-列汇总的百分比
(2)同比与环比
(3)数据分组统计
五、数据展现
数据间关系:成分(饼图,柱形图,条形图,瀑布图……),排序(柱形图,条形图,气泡图,帕累托图……),时间序列(柱形图,折线图……),频率分布(柱形图,条形图,折线图……),相关性(柱形图,对称条形图(旋风图)条形图,散点图,气泡图……),多重数据比较(雷达图)
1. 确定要表达的主题或目的
2. 确定哪种图标最适合你的目的
3.选择数据制作图标
4. 检查是否真实有效地展示数据
5.检查是否表达了你的观点
表格
1. 条件格式-突出显示单元格规则/项目选取/数据条/图标集
2. 插入-迷你图 -设计-标记颜色
3.平均线图-加一行数据一样的平均值-构建柱形图-更改平均值得图标类型为折线图
4. 双坐标图 -先建立柱形图-将一个右击-设置数据格式-次坐标轴
5. 双柱图-双坐标轴: 加入2-3个为0 的占位列 来消除重叠的情况
6.纵向坐标轴标签 纵向文本框改为横向文本框 双击文本框- 对其方式-文字方向-横排
7.竖行折线图(蛇形图):插入带平滑线和数据标记的散点图 P157 难
8.瀑布图:堆积柱形图- 把占位栏设为无填充-无线条
9.帕累托图: P160 较难
10.旋风图
11.人口金字塔 与旋风图 类似
12. 漏斗图
13.矩阵图
14. 发展矩阵图 添加箭头是在右击 设置趋势序列格式里面
15.改进难易矩阵
图表改进
标题(最好一句话)、图例、单位、脚注、资料来源,
(1)饼图: 最重要的成分要靠近12点钟的位置 ,并且从那开始排列 数据表现在5项以内,不要使用图例,不要过分饼图分离,推荐用白色的边框线,因为具有比较好的切割感
(2)柱形图: 同一数据序列使用相同的颜色,不要使用倾斜的标签,纵坐标一般从0开始,一般使用数据标签,并且拒绝使用网格线
(3)条形图:尽量从大到小排列,不要使用倾斜的标签,最好添加数据标签,统一数据序列使用相同的颜色
(4)折现图:线型要相对粗一些,比网格线,坐标轴等更加突出,线条一般不超过5条,不要使用倾斜的标签,预测值最好用虚线表示
六、数据分析报告
规范性,重要性,谨慎性,创新性
展示分析结果,验证分析质量,提供决策参考
专题分析报告,综合分析报告,日常数据通报
浙公网安备 33010602011771号