相关系数概念篇

相关系数概念篇

本文中概念参考:相关系数(scribbr.com)

​ 相关系数是一种描述性统计(descriptive)量,可以用来度量两个变量之间线性相关的程度,取值在-1到1之间。它的绝对值表示变量间的相关程度(表1),它的正负表示两变量相关的方向。

​ 如果你需要做推断性统计(inferential statistics),需要通过检验统计量(test statistics)来判断数据的统计显著性(statistical significance)。当你试图说明你的统计数据的现实意义的时候,需要度量数据的现实显著性(practical significance)。

表1 相关系数取值与相关程度对应表
相关系数绝对值 相关程度
0
0 to 0.3
0.3 to 0.5 中等
0.5 to 0.7
0.7 to 1 极强

​ 不同的相关系数计算对数据的要求不同,一般是看数据是否符合Pearson的要求,如果不符合,再从Spearman和Kendall中选择。表2中列出了不同相关系数对变量数据的要求。其中各种变量的区别可见测量尺度

表2 不同相关系数对数据的要求
相关系数 度量关系 变量 数据分布
Pearson’s r 线性 两个定量(区间、比率)变量 正态分布
Spearman’s \(\rho\) 非线性 两个序级、区间或比率变量 任意分布
Point-biserial 线性 一个二值变量和一个定量变量 正态分布
Cramér’s V (Cramér’s φ) 非线性 两个名义变量 任意分布
Kendall’s \(\tau\) 非线性 两个序级、区间或比率变量 任意分布

1. Pearson’s \(r\)

​ Pearson's r(Pearson’s product-moment correlation coefficient)用来度量两个定量变量间的线性关系。采用Pearson相关性分析的数据需要满足以下几个条件1️⃣所有变量为定量变量,即是区间或比率变化;2️⃣所有变量服从正态分布;3️⃣数据没有异常值;4️⃣数据来自随机采样,或者是代表性样本。

样本相关系数

\[r_{xy}= \frac{cov(x,y)}{Std_xStd_y} \]

总体相关系数

\[\rho_{XY}=\frac{cov(X,Y)}{\sigma_X\sigma_Y} \]

​ 式中的\(cov\)表示的是两者之间的协变量。

​ Pearson属于参数检验。参数检验是指假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数(μ)进行检验,比如t检验、z检验、方差分析。

2. Spearman's \(\rho\)

​ 当数据中1️⃣有次序变量,或者2️⃣数据不服从正态分布的时候,可以采用Spearman相关系数进行相关性分析。Spearman \(\rho\)是一个等级相关系数,可以判断两个变量间是否存在单调关系。单调关系与线性关系的区别是单调关系不需要像线性关系那样保持斜率一致。也就是说线性关系是特殊的单调关系。Spearman中\(\rho\)表示总体相关系数,\(r_s\)表示样本相关系数。Spearman相关系数会先分别将每个变量按次序从低到高排列,获得每个值在变量中的排位。

\[r_s=1-\frac{6\sum{d_i}^2}{n^3-n} \]

​ 其中,\(d_i\)表示样本\(i\)的两个变量次序之差,\(\sum{d_i}^2\)表示所有样本次序差的方差之和, \(n\)表示样本数量。

​ 通俗理解一下,就是比如说英语、数学、语文考试,一个班上有10个人。他们所有科目每个人的排名都是一样的,就是说语文考了第5的同学数学和英语也考了第5。这个时候,这组同学的语文、数学、英语两两之间的Spearman \(r_s\)就是1,也就是说这个班上的同学语文、数学、英语之间就存在单调关系啦。当然了,上面只是一个假想的情景😂。

3. Kendall's \(\tau\)

​ Kendall's \(\tau\) 和 Spearman's \(\rho\) 对数据的要求一样,而Kendall's \(\tau\) 更适用于小样本变量间的相关性统计。

​ 有\(n\) 个样本,它们有两个属性\(X\)\(Y\)\((x_i,y_i)\)是样本\(i\) \(X\) 属性和\(Y\)属性的数值,而\((o_{x_i},o_{y_i})\)则是样本\(i\) \(X\) 属性和\(Y\)属性在各自序列中的排名。当\(i<j\)时,如果\(o_{x_i}<o_{x_j}\)\(o_{y_i}<o_{y_j}\),或者\(o_{x_i}>o_{x_j}\)\(o_{y_i}>o_{y_j}\)时,这两个样本就是协调的。否则,就是不协调的。所有的\(i,j\)(一共有\(n(n-1)/2\)对)比较下来,协调的对数为\(N_{con}\),不协调的对数为\(N_{dis}\)。则Kendall's \(\tau\) 计算公式如下:

\[\tau = \frac{N_{con}-N_{dis}}{n(n-1)/2} \]

​ 这个相关系数计算方式,通俗来讲,就是把每个样本的属性量都两两比较一遍,如果两个在序列的排名前后相对一致,他俩就是协调的。就是说小园和小方,小圆语文和数学排名都比小方高,或者都比小方低,他俩这个“比较对”就会打上一个“协调”的标签,否则打上一个“不协调”标签。所有人像这样两两比较之后,用“协调”标签数减去“不协调”标签数,再除以“比较对”的个数,就是Kendall's \(\tau\)。Kendall这种“比较对”思想我想想...好像还在哪里见过👉好像是不是有个东西叫SenMannKendall【⭐有坑待填】

4. \(r^2\)

​ 当你对相关系数取平方时,会得到判定系数(the coefficient of determination) \(r^2\) 。此时,它是变量间方差的一部分。在回归模型中,判定系数常被用来度量一个变量的方差中有多少是另一个变量的方差。也就是说,它度量了一个变量对另一个变量变异性的解释程度。

\(1-r^2\) 被称为疏离系数(the coefficient of alienation),被用来表示一个变量的方差中有多少不能被另一个变量解释。

5. 显著性检验

​ 为了判断样本数据相关性对总体相关性的代表程度,需要对相关系数进行显著性检验。假设检验的目的是通过样本的相关系数\(r\)与数量\(n\)来判断总体的相关系数\(\rho\)是否趋近于0。

​ 假设检验通常有两类错误:1️⃣第一类错误(弃真)是零假设为真却被错误拒绝的概率;2️⃣第二类错误(纳伪)是零假设为假却被错误接受的概率。通常情况下,α水平属于第一类错误。

(1) 研究假设H1 ,即假设两个变量之间有关,注意这里的有关是指有系统的关系,即显著关系;

(2)零假设 H0 (虚无假设),即两个变量之间没有显著关系;

(3)根据变量类型选择检验方法

(4)决定愿意承担多大的犯一类错误的风险,这与是否放弃零假设有关;

(5)根据样本计算犯一类错误的风险

(6)参照第4—5步决定是否放弃零假设

​ 当根据样本计算的犯一类错误的风险小于愿意承担的犯一类错误的风险的时候,则接受零假设,反之则拒绝零假设。

posted @ 2022-06-24 17:09  coliaxu  阅读(1734)  评论(0)    收藏  举报