简单相关性分析(两个连续型变量)

转自:https://zhuanlan.zhihu.com/p/36441826

目录:

  • 变量间的关系分析
    • 函数关系
    • 相关关系
      • 平行关系
      • 依存关系
  • 简单相关分析
    • 计算两变量之间的线性相关系数
      • 协方差定义、柯西-施瓦尔兹不等式
      • Pearson 相关系数
      • 相关系数的假设检验
      • [公式] 的图
      • t-检验的解读
  • 纯探讨向——深度探讨 [公式]

一、变量间的关系分析


变量之间的关系可分为两类:

  1. 存在完全确定的关系——称为函数关系
  2. 不存在完全确定的关系——虽然变量间有着十分密切的关系,但是不能由一个或多各变量值精确地求出另一个变量的值,称为相关关系,存在相关关系的变量称为相关变量


相关变量的关系也可分为两种:

  1. 两个及以上变量间相互影响——平行关系
  2. 一个变量变化受另一个变量的影响——依存关系

它们对应的分析方法:

  • 相关分析是研究呈平行关系的相关变量之间的关系
  • 回归分析是研究呈依存关系的相关变量之间的关系


回归分析和相关分析都是研究变量之间关系的统计学课题,两种分析方法相互结合和渗透


二、简单相关分析

相关分析:就是通过对大量数字资料的观察,消除偶然因素的影响,探求现象之间相关关系的密切程度和表现形式

主要研究内容:现象之间是否相关、相关的方向、密切程度等,不区分自变量与因变量,也不关心各变量的构成形式

主要分析方法:绘制相关图、计算相关系数、检验相关系数


1、计算两变量之间的线性相关系数

所有相关分析中最简单的就是两个变量间的线性相关,一变量数值发生变动,另一变量数值会随之发生大致均等的变动,各点的分布在平面图上大概表现为一直线。

二元总体X与Y散点图

线性相关分析,就是用线性相关系数来衡量两变量的相关关系和密切程度


给定二元总体 [公式]

总体相关系数用 [公式] 来表示:

[公式]


[公式][公式] 的总体方差,

[公式][公式] 的总体方差,

[公式][公式][公式] 的协方差。


浅谈一下协方差定义:

[公式] 是二维随机变量,若 [公式] 存在,

则称[公式] ,叫 [公式][公式] 的协方差,也叫 [公式][公式] 的相关(中心)矩

[公式] 的偏差" [公式] "与 [公式] 的偏差" [公式] "乘积的期望。

解读

  • [公式][公式] 的偏差" [公式] "跟[公式] 的偏差" [公式] ",有同时增加或同时减少的倾向,又由于 [公式][公式] 都是常数,所以就能够等价于 [公式][公式] 有同时增加或者减少的倾向,称 [公式][公式] 正相关
  • [公式][公式] 的偏差" [公式] "跟[公式] 的偏差" [公式] ", [公式] 增加 [公式] 减少的倾向 [公式] 增加 [公式] 减少的倾向,称[公式][公式] 负相关
  • [公式] ,称[公式][公式] 不相关,这时可能是“ [公式][公式] 取值毫无关联”,也可能是“有某种特殊的非线性关系


根据柯西-施瓦尔兹不等式(Cauchy–Schwarz inequality):

[公式]

变形得 [公式] 在区间 [公式]

[公式] 是没有单位的,因为分子协方差的量纲除以了分母的与分子相同的量纲

  • 两变量线性相关性越密切, [公式] 接近于 [公式]
  • 两变量线性相关性越低, [公式] 接近于 [公式]
  • [公式] 的情况跟上面 [公式] 情况一样


协方差与相关系数的关系,就像绝对数与相对数的关系。



Pearson 相关系数(样本线性相关系数)

但是,学过统计的都知道,我们一般用样本线性相关系数来估计总体线性相关系数


[公式] 是二元总体,简单随机抽样 [公式][公式],......,[公式]

样本均值: [公式][公式]

样本方差: [公式][公式]

样本协方差: [公式]


样本相关系数:

[公式]


[公式][公式] 的离差平方和, [公式][公式] 的离差平方和, [公式][公式][公式] 离差乘积之和(可正可负)

实际计算可按下面简化:

[公式]

[公式]

[公式]


例子:研究身高与体重的关系(R语言)

> x <- c(171,175,159,155,152,158,154,164,168,166,159,164)
> y <- c(57,64,41,38,35,44,41,51,57,49,47,46)
> plot(x,y)
> lxy <- function(x,y){
+     n = length(x);
+     return(sum(x*y)-sum(x)*sum(y)/n)
+ }
> lxy(x,x)
[1] 556.9167
> lxy(y,y)
[1] 813
> lxy(x,y)
[1] 645.5
> r <- lxy(x,y)/sqrt(lxy(x,x)*lxy(y,y))
> r
[1] 0.9593031

也能直接用cor()

> cor(x,y)
[1] 0.9593031

这里的 [公式] ,说明身高和体重是正的线性相关关系

至于 [公式] 是否显著,就要看下面的显著性检验了。


Python版本的代码如下:

>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> x = np.array([171,175,159,155,152,158,154,164,168,166,159,164])
>>> y = np.array([57,64,41,38,35,44,41,51,57,49,47,46])
>>> np.corrcoef(x, y)
array([[1. , 0.95930314],
[0.95930314, 1. ]])
>>> plt.scatter(x, y)
>>> plt.show()

2、相关系数的假设检验

引入假设检验的原因: [公式] 与其他统计指标一样,也会有抽样误差。从同一总体内抽取若干大小相同的样本,各样本的样本相关系数总会有波动。即根据样本数据是否有足够的证据得出总体相关系数不为0的结论

要判断不等于 [公式][公式] 值是来自总体相关系数 [公式] 的总体,还是来自 [公式] 的总体,必须进行显著性检验


由于来自 [公式] 的总体的所有样本相关系数呈白噪声或者其他特殊分布

(为什么?看图第一行中间、第三行)

因为样本间没有线性相关性,可能会杂乱无章(即什么关系也没有),也可能呈现出一些非线性关系(更高阶的关系Pearson相关系数并不能表示出来)

图片来自Wiki

关于 [公式] 会在第 3 章继续探讨

所以 [公式] 的显著性检验可以用双侧 [公式] 检验来进行


(1)建立检验假设: [公式]


(2)构造 [公式] 统计量,计算相关系数 [公式][公式] 值: [公式]

[公式] 近似服从 [公式] 分布,如果数据严格服从二元正态分布

[公式] 是 gamma 函数, [公式] 是高斯超几何函数。

当总体相关系数 [公式] 时(假定两个随机变量是正态无相关的),样本相关系数 [公式] 的密度函数为: [公式][公式] 是 beta 函数,此密度函数碰巧就是统计量 [公式] 就是自由度为 [公式][公式] 分布;


(3)计算 [公式] 值和 [公式] 值,做结论

在 R语言 中有 cor.test() 函数

# r的显著性检验,参数alternative默认是"two.side"即双侧t检验

method默认"pearson"

> cor.test(x1, x2)

Pearson's product-moment correlation

data: x1 and x2
t = 10.743, df = 10, p-value = 8.21e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8574875 0.9888163
sample estimates:
cor
0.9593031

R的 cor.test() 在这里给出的结果还是比较丰富的。

  • [公式] 值为 [公式]
  • [公式] 自由度是 [公式]
  • [公式] [公式] ,在显著性水平 [公式] 上拒绝 [公式] ,接受 [公式] 认为该人群身高和体重成正线性关系
  • 置信度为 [公式] 的区间估计是 [公式] ,意思是总体线性相关系数 [公式] 取值在 [公式] 上的概率是 [公式]
  • [公式] 的点估计为 [公式]


这段检验该如何解读?

这段代码检验了身高和体重的Pearson相关系数为 [公式] 的原假设

假设总体相关度为 [公式] ,则预计在一百万次中只会有少于一次的机会见到 [公式] 这样大的相关度(即 [公式]

但其实这种情况几乎不可能发生,所以可以拒绝掉原假设,即身高和体重的总体相关度不为 [公式]


注意:

相关系数的显著性是与自由度 [公式] 有关,也就是与样本数量 [公式] 有关(这也是相关系数很明显的缺点)。

样本量小,相关系数绝对值容易接近于 [公式] ,样本量大,相关系数绝对值容易偏小。

容易给人一种假象

在样本量很小 [公式] ,自由度 [公式] 时,虽然 [公式] 却是不显著

在样本量很大 [公式] 时,即使 [公式] ,也是显著的

所以不能只看 [公式] 值就下结论,还要看样本量大小


所以,我们要拿到充分大的样本,就能把样本相关系数 [公式] 作为总体相关系数 [公式] ,这样就不必关心显著性检验的结果了



3、 [公式] 与无法度量非线性关系的强度

举《Statisitcal Inference第二版》里面的例子4.5.9

[公式][公式]

[公式] ,其中 [公式][公式][公式] 独立即 [公式]

但是 [公式]

[公式]

[公式]

进而 [公式]

但明明是类似于二阶抛物线的关系,Pearson相关系数却为 [公式] ?!!

这就明显说明了Pearson相关系数无法度量非线性关系的强度


下次会继续深入探讨多变量相关性分析

江子星:多变量相关性分析(一个因变量与多个自变量)zhuanlan.zhihu.com图标


参考书籍:

  • 《多元统计分析及R语言》第四版——王斌会
  • 《概率论与数理统计教程》第二版——茆诗松 / 程依鸣 / 濮晓龙
  • 《R语言实战》第2版——Robert I. Kabacoff
  • 《Statistical Inference》——George Casella / Roger L. Berger
  • 相关系数检验 Using the exact distribution en.wikipedia.org/wiki/P

posted @ 2020-05-12 11:20  Le1B_o  阅读(2746)  评论(0编辑  收藏  举报