随笔分类 - SAS统计过程
摘要:前面的博客有介绍过对连续的变量进行线性回归分析,从而达到对因变量的预测或者解释作用。那么如果因变量是离散变量呢?在做行为预测的时候通常只有“做”与“不做的区别”、“0”与“1”的区别,这是我们就要用到logistic分析(逻辑回归分析,非线性模型)。 参数解释(对变量的评价) 发生比(odds):
阅读全文
摘要:回归分析即,量化因变量受自变量影响的大小,建立线性回归方程或者非线性回归方程,从而达对因变量的预测,或者对因变量的解释作用。 回归分析流程如下: ①探索性分析,画不同变量之间的散点图,进行相关性检验等,了解数据的大致情况,以及得知重点关注那几个变量; ②变量和模型选择,; ③回归分析假设条件验证;
阅读全文
摘要:实际意义 判别分析于聚类分析的功能差不多,区别在于,聚类分析之前,没有人知道具体的是怎么分的类,分了哪几大类。而判别分析是已经把类别给分好,要做的是把没有分好类的数据观测,按照之前分好的类再进行分类。这里不同于生活中常见的分类先有具体的分类逻辑(这里叫做判别函数)。所以判别分的难点在于先由分好类的数
阅读全文
摘要:顾名思义,对数据的变量或者观测进行分类。 常见的分类方法有:层次法(凝聚式、分裂式适合,适合观测少的,不需要输入类别数)、划分法(开始阶段直接指定某几个类中心,适合观测多的情形,需要输入类别数)。 检测分类好坏的标准:同一类的相似,不同类的几乎不具备相似性(殊途殊归,同途同归)。 一般情况下使用距离
阅读全文
摘要:主成分分析,主成份是原始变量的线性组合,在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。即“简化变量”,将变量以不同的系数合起来,得到好几个复合变量,然后在从中挑几个能表示整体的复合变量就是主成份,然后计算得分。 因子分析,公共因子和原始变量的关系是不可逆转的,但是可以通过回归得到。是将变量
阅读全文
摘要:方差分析的主要功能就是验证两组样本,或者两组以上的样本均值是否有显著性差异(是否一致)。 这里有两个大点需要注意:①方差分析的原假设是:样本不存在显著性差异(即,均值完全相等);②两样本数据无交互作用(即,样本数据独立)这一点在双因素方差分析中判断两因素是否独立时用。 原理 方差分析的原理就一个方程
阅读全文
摘要:假设检验分参数假设和非参数假设。 假设 先假设原假设H0,对应的反面叫做备择假设H1。SAS一般沿用的规则是NEYMAN和PEARSON提出的:在控制犯第一类错误的原则下,是犯第二类错误的概率尽量小(即,原假设受到保护,不能轻易否定。若原假设被否定了,其理由一定是充分的)。反过来思考,若为了是假设更
阅读全文
摘要:参数估计即通过样本计算出来的某个统计值来估计总体的统计值。 参数估计分点估计和区间估计。 点估计即,通过样本直接估计总体的某个指标(均值或者标准差等),估计的结果是一个确定的值。 区间估计即,通过样本估计总体的某个指标,估计的结果是一个区间(置信区间,在某个置信水平上的总体指标所在的区间)。 解释:
阅读全文
摘要:EDA(探索性数据分析)最常用的过程步之一就是PROC UNIVARIATE。 首先先看一个最简单的PROC UNIVARIATE程序: 上述代码得到的结果有:矩、位置和可变形的基本测度、位置检验、分位数、极值观测。具体如下: 解读:首先看第一张表——矩,其中N=35代表该进入分析变量有35条观测,
阅读全文

浙公网安备 33010602011771号