相关系数

总体和样本

  • 总体:所要考察对象的全部个体叫做总体
  • 样本:从总体中抽取的一部分个体叫总体的一个样本

计算这些抽取的样本统计量来估计总体的统计量:

例如使用样本均值样本标准差来估计总体的均值(平均水平)总体的标准差(偏离程度)

总体皮尔逊相关系数

如果两组数据X:{\(X_1\), \(X_2\),..., \(X_n\) }和Y:{\(Y_1\), \(Y_2\), ..., \(Y_n\)}是总体数据

那么总体均值:E(X) = \(\frac{\sum_{i=1}^{n}X_i}{n}\) , E(Y) = \(\frac{\sum_{i=1}^{n}Y_i}{n}\)

总体协方差:Cov(X, Y) = \(\frac{\sum_{i=1}^n(X_i - E(X))(Y_i - E(Y))}{n}\)

直观理解协方差:如果X,Y变化方向相同,即当X大于其均值时,Y也大于其均值,在这两种情况下,乘积为正;同理,如果X,Y变化方向一直相反,则协方差为负;如果X,Yx变化方向之间相互无规律,即分子中有的项为正。有点项为负,那么累加后正负相消,

注意:协方差的大小和两个变量的量纲有关,因此不适合作比较

总体Pearson相关系数\(\rho_{XY}\) = \(\frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}}\) = \(\frac{\sum_{i=1}^{n}\frac{(X_i - E(X))}{\sigma_X}\frac{(Y_i - E(X)) }{\sigma_Y}}{n}\)

\(\sigma_X\)是X的标准差:\(\sigma_X = \sqrt{\frac{\sum_{i=1}^n(X_i - E(X))^2}{n}}\)

\(\sigma_Y = \sqrt{\frac{\sum_{i=1}^n(Y_i - E(Y))^2}{n}}\)

可以证明,\(\rho_{XY}\) <= 1, 且当Y= aX +b 时,

\( \rho_{XY}= \begin{cases} 1,\quad a>0 \\[2ex] -1, \quad a<0 \end{cases} \tag{1} \)

皮尔逊相关系数也可以看成是剔除了两个变量量纲的影响,即将X和Y标准化后的协方差。

皮尔逊相关系数反映线性相关系数

样本皮尔逊相关系数

如果两组数据X:{\(X_1\), \(X_2\),..., \(X_n\) }和Y:{\(Y_1\), \(Y_2\), ..., \(Y_n\)}(一般调查得到的数据均为样本数据)

样本均值:\(\bar{X} = \frac{\sum_{i=1}^{n}X_i}{n}\), \(\bar{Y} = \frac{\sum_{i=1}^{n}Y_i}{n}\)

样本协方差:Cov(X, Y) = \(\frac{\sum_{i=1}^n(X_i - \bar{X})(Y_i - \bar{Y})}{n-1}\)

样本Pearson相关系数:\(r_{XY} = \frac{Cov(X, Y)}{S_XS_Y}\)

其中S_X是X的样本标准差:\(S_X = \sqrt{\frac{\sum_{i-1}^{n}(X_i - \bar{X})^2}{n-1}}\),\(S_X = \sqrt{\frac{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}{n-1}}\)

理解误区

这里的相关系数只是用来衡量两个变量线性相关程度的指标

必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何

  • 非线性相关也会导致线性相关系数很大
  • 离群点对相关系数的影响很大
  • 两个变量的相关系数很大也不能说明两者相关
  • 相关系数为0,只能说不是线性相关

描述性统计

min                    # 数组的最小元素 
mink                   # 计算数组的k个最小元素
max                    # 数组的最大元素
maxk                   # 计算数组的k个最大元素 
bounds                 # 最大元素和最小元素
topkrows               # 按排序顺序的前若干行
mean                   # 数组的均值
median                 # 数组的中位数值
mode                   # 数组的众数
skewness               # 偏度
kurtosis               # 峰度
std                    # 标准差
var                    # 方差

假设检验

置信水平:相信原假设成立的概率

显著性水平:犯第一类错误的概率,我们有多大的概率拒绝原概率

  • 提出原假设\(H_0\)和备择假设\(H_1\)
  • 在原假设成立的条件下,利用我们要检验的量构造出某一分布的统计量(统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量;这里的分布一般有四种:标准正态分布,t分布,\(\chi^2\)分布和F分布)
  • 将要检验的值代入统计量中,得到检验值
  • 画出概率密度函数pdf,并给定置信水平
  • 看检验值落在了接受域还是拒绝域

正态分布JB检验

偏度>0 ,正偏态;

峰度>0高尖

斯皮尔曼相关系数

\(r_s = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2 - 1)}\) (其中\(d_i\)\(X_i\)\(Y_i\)之间的等级差),可以证明\(r_s\)介于1到-1

斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数

比较

  • 连续数据,正态分布,线性关系,用pearson相关系数
  • 任意不满足,用spearman相关系数
  • 两个定序数据之间也用sperman相关系数(优 良 差)
posted @ 2025-02-02 17:22  0214jx  阅读(102)  评论(0)    收藏  举报