一、简介
SPSS:统计产品与服务解决方案(Statistical Product and Service Solutions)
基本功能:数据管理(数据源导入数据,操作变换,基于已有数据计算新的变量)、统计分析、图表分析、输出管理
统计分析功能:描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、生存分析、时间序列分析、多重响应
统计学应用:经济学、商业、物流管理、统计学、生物学、心理学、地理学、医疗卫生、体育、农业
二、软件下载安装
微信公众号:火耳软件安装
三、初识SPSS
3.1 spss的三种视图
数据视图 :查看数据、编辑数据
变量视图:查看变量、编辑变量定义(标签对名称的解释、值可用数字代替具体内容、测量表示数据类型(标度为数值型、有序、名义)、角色(自变量为输入、因变量为目标))
结果窗口:查看结果、对输出结果进行编辑
3.2 spss常用设置
系统选项:编辑 → 选项 → 常规 → 线程数(运行速度)
语言设置:编辑 → 选项 →语言 → 语言环境书写系统 → 语言环境
编码设置:编辑 → 选项 →语言(当打开数据出现乱码时,修改spss默认编码一般可以解决乱码问题)关掉SPSS重新打开不载入数据集,可以选择编码设置
默认文件打开位置:编辑 → 选项 → 文件位置
3.3 spss文件数据准备
可导入SPSS常见数据源:spss默认格式".sav"、Excel格式".xls&.xlsx"、其他统计软件SAS、Stata、txt格式、.csv格式
当数据不能直接导入SPSS时,可以通过其他软件中间过渡,例如先存入excel,再导入spss
导出文件数据:文件 → 另存为
数据整理:名称
类型:数值、字符串、日期等
宽度:数字字符串可以显示的最长位数
小数位数:小数的位数
标签:对名称处进行补充解释,解读名称含义
值:值标签,用数字代替一些具体内容
缺失:将噪声数据定义为缺失,防止干扰正常统计
列:列宽大小
对齐:表格中数据位置
测量(度量标准):连续变量为标度/度量(例如),分类变量有序为有序/序号(例如学生排名),无序为名义(性别)
角色:自变量输入 因变量目标
3.4 数据预处理
数据拆分/数据检索与抽样:
拆分前需将原始数据备份,拆分通过删除“未选择个案”,保留“选择个案”进行。
数据拆分依赖分类变量,例如通过性别将数据集拆分为两个数据集
通过变量视图中的值标签观察数据分类,然后回到数据视图 → 数据 → 选择个案 → 如果条件满足 → 如果 → 选择要分类变量 (‘~=’ 表示不等于) → 继续 → 确定 → 数据 → 选择个案 → 删除未选定的个案 → 保存数据
数据合并:横向合并、纵向合并
横向合并:数据 合并文件 添加个案 第一行列名相同 确定
纵向合并(具有相同的id):数据 合并文件 添加变量(两个需合并的数据集需在spss中打开)
解决数据乱码问题:语言设置:编辑 → 选项 →语言 → 语言环境书写系统 → 语言环境
数据排序:数据 → 排序个案 → 选择需排序的特征
数据计算与计数:转换 → 计算变量 →函数组
转换 → 对个案中的值进行计数
数据的加权处理:数据 → 个案加权
字符型变量数值化编码:转换→ 重新编码为不同变量 → 输出变量 → 旧值新值(所有其他值定义防止错误)
定距变量的离散化编码:转换 → 重新编码为不同变量 → 输出变量 → 旧值新值 → 范围
转化 → 可视分箱
数据分类汇总:数据 → 汇总 → 分界变量/变量摘要/函数
缺失值标记与处理:变量视图 → 缺失 / 转换 → 替换缺失值
数据重编码——Z分数:分析 → 描述统计 → 描述 → 选择特征 → 将标准化值另存为变量
求秩分:转换 → 个案等级排序
四、统计学基础知识
4.1 简介
统计学:对现实世界中产生的数据进行统计分析,得到有助于人们认识这个世界的的有用信息。
利用积累到的数据和规律预测未来事情的发生情况。
统计学分类:描述统计、分类统计
统计学表现形式:描述统计:得到数据的均值、众数、标准差、频率统计等结果
统计模型:建立相关分析、回归分析、方差分析等统计模型
统计图表:利用统计图表将分析结果进行展现
数据分析的表现形式:描述统计:给出业务关心得描述统计结果
统计模型/算法:将业务要求用统计模型表现出来并部署到业务实施得IT系统中
可视化分析结果:利用可视化技术将业务关系的指标、趋势表现出来供业务人员参考,以优化业务 BI
4.2 制表
描述统计 分析前要将数据类型改为数字型
频率统计
选择要分析的数据列 → 分析 → 描述统计 → 频率 → 选择数据列 → 统计图表格式设定 → 表格格式变换 → 复制到word保留原格式
备注:如何在spss中直接输出三线图 https://jingyan.baidu.com/article/3f16e003e911692591c103a9.html
描述统计
选择要分析的数据列 → 分析 → 统计描述 → 描述→ 选择数据列 → 选项选择所需描述统计值
正态分布:频率分析 图表 直方图 在直方图中显示正态曲线
交叉分析后进行卡方检验
分析两个分类变量之间的关系
分析 → 描述统计→ 交叉表 → 行列特征选择
统计制表,多个特征信息绘制到一张表格中
分析 表 制定表 选择特征拖入 ctrl选择特征 摘要统计 列百分比 列总计 应用于所选项
两独立样本T检验:分析 比较均值 独立样本T检验
4.3 制图
散点图(常用简单散点图、分组散点图、矩阵散点图(做相关与回归分析)): 图形 → 图形构建器 → 散点图
折线图:堆积折线图需将同类元素整合到一列中,数据 重构
柱形图/条形图:图形 → 图形构建器 → 条形图
面积图:堆积柱形图,输入x轴,输出y轴,分类数据重构
直方图:分析 → 描述统计 → 频率 → 图表 / 图形 → 图形构建器 → 直方图
箱线图:图形 → 图形构建器 → 箱线图
五、基础操作