相关系数

总体和样本

总体：所要考察对象的全部个体叫做总体
样本：从总体中抽取的一部分个体叫总体的一个样本

计算这些抽取的样本统计量来估计总体的统计量：

例如使用样本均值，样本标准差来估计总体的均值（平均水平） 和总体的标准差（偏离程度）

总体皮尔逊相关系数

如果两组数据X:{\(X_1\), \(X_2\),..., \(X_n\) }和Y:{\(Y_1\), \(Y_2\), ..., \(Y_n\)}是总体数据

那么总体均值：E(X) = \(\frac{\sum_{i=1}^{n}X_i}{n}\) , E(Y) = \(\frac{\sum_{i=1}^{n}Y_i}{n}\)

总体协方差:Cov(X, Y) = \(\frac{\sum_{i=1}^n(X_i - E(X))(Y_i - E(Y))}{n}\)

直观理解协方差:如果X,Y变化方向相同,即当X大于其均值时，Y也大于其均值，在这两种情况下，乘积为正；同理，如果X,Y变化方向一直相反，则协方差为负；如果X,Yx变化方向之间相互无规律，即分子中有的项为正。有点项为负，那么累加后正负相消，

注意：协方差的大小和两个变量的量纲有关，因此不适合作比较

总体Pearson相关系数\(\rho_{XY}\) = \(\frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}}\) = \(\frac{\sum_{i=1}^{n}\frac{(X_i - E(X))}{\sigma_X}\frac{(Y_i - E(X)) }{\sigma_Y}}{n}\)

\(\sigma_X\)是X的标准差：\(\sigma_X = \sqrt{\frac{\sum_{i=1}^n(X_i - E(X))^2}{n}}\)

\(\sigma_Y = \sqrt{\frac{\sum_{i=1}^n(Y_i - E(Y))^2}{n}}\)

可以证明，\(\rho_{XY}\) <= 1, 且当Y= aX +b 时,

\( \rho_{XY}= \begin{cases} 1,\quad a>0 \\[2ex] -1, \quad a<0 \end{cases} \tag{1} \)

皮尔逊相关系数也可以看成是剔除了两个变量量纲的影响，即将X和Y标准化后的协方差。

皮尔逊相关系数反映线性相关系数

样本皮尔逊相关系数

如果两组数据X:{\(X_1\), \(X_2\),..., \(X_n\) }和Y:{\(Y_1\), \(Y_2\), ..., \(Y_n\)}(一般调查得到的数据均为样本数据)

样本均值:\(\bar{X} = \frac{\sum_{i=1}^{n}X_i}{n}\), \(\bar{Y} = \frac{\sum_{i=1}^{n}Y_i}{n}\)

样本协方差：Cov(X, Y) = \(\frac{\sum_{i=1}^n(X_i - \bar{X})(Y_i - \bar{Y})}{n-1}\)

样本Pearson相关系数:\(r_{XY} = \frac{Cov(X, Y)}{S_XS_Y}\)

其中S_X是X的样本标准差:\(S_X = \sqrt{\frac{\sum_{i-1}^{n}(X_i - \bar{X})^2}{n-1}}\),\(S_X = \sqrt{\frac{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}{n-1}}\)

理解误区

这里的相关系数只是用来衡量两个变量线性相关程度的指标

必须先确认这两个变量是线性相关的，然后这个相关系数才能告诉你他俩相关程度如何

非线性相关也会导致线性相关系数很大
离群点对相关系数的影响很大
两个变量的相关系数很大也不能说明两者相关
相关系数为0，只能说不是线性相关

描述性统计

min                    # 数组的最小元素 
mink                   # 计算数组的k个最小元素
max                    # 数组的最大元素
maxk                   # 计算数组的k个最大元素 
bounds                 # 最大元素和最小元素
topkrows               # 按排序顺序的前若干行
mean                   # 数组的均值
median                 # 数组的中位数值
mode                   # 数组的众数
skewness               # 偏度
kurtosis               # 峰度
std                    # 标准差
var                    # 方差

假设检验

置信水平：相信原假设成立的概率

显著性水平：犯第一类错误的概率，我们有多大的概率拒绝原概率

提出原假设\(H_0\)和备择假设\(H_1\)
在原假设成立的条件下，利用我们要检验的量构造出某一分布的统计量（统计量相当于我们要检验的量的一个函数，里面不能有其他的随机变量；这里的分布一般有四种：标准正态分布，t分布，\(\chi^2\)分布和F分布）
将要检验的值代入统计量中，得到检验值
画出概率密度函数pdf，并给定置信水平
看检验值落在了接受域还是拒绝域

正态分布JB检验

偏度>0 ,正偏态；

峰度>0高尖

斯皮尔曼相关系数

\(r_s = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2 - 1)}\) （其中\(d_i\)为\(X_i\)和\(Y_i\)之间的等级差），可以证明\(r_s\)介于1到-1

斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数

比较

连续数据，正态分布，线性关系，用pearson相关系数
任意不满足，用spearman相关系数
两个定序数据之间也用sperman相关系数（优良差）

posted @ 2025-02-02 17:22 0214jx 阅读(102) 评论(0) 收藏举报

刷新页面返回顶部

0214jx