相关系数
总体和样本
- 总体:所要考察对象的全部个体叫做总体
- 样本:从总体中抽取的一部分个体叫总体的一个样本
计算这些抽取的样本统计量来估计总体的统计量:
例如使用样本均值,样本标准差来估计总体的均值(平均水平) 和总体的标准差(偏离程度)
总体皮尔逊相关系数
如果两组数据X:{\(X_1\), \(X_2\),..., \(X_n\) }和Y:{\(Y_1\), \(Y_2\), ..., \(Y_n\)}是总体数据
那么总体均值:E(X) = \(\frac{\sum_{i=1}^{n}X_i}{n}\) , E(Y) = \(\frac{\sum_{i=1}^{n}Y_i}{n}\)
总体协方差:Cov(X, Y) = \(\frac{\sum_{i=1}^n(X_i - E(X))(Y_i - E(Y))}{n}\)
直观理解协方差:如果X,Y变化方向相同,即当X大于其均值时,Y也大于其均值,在这两种情况下,乘积为正;同理,如果X,Y变化方向一直相反,则协方差为负;如果X,Yx变化方向之间相互无规律,即分子中有的项为正。有点项为负,那么累加后正负相消,
注意:协方差的大小和两个变量的量纲有关,因此不适合作比较
总体Pearson相关系数\(\rho_{XY}\) = \(\frac{Cov(X, Y)}{\sigma_{X}\sigma_{Y}}\) = \(\frac{\sum_{i=1}^{n}\frac{(X_i - E(X))}{\sigma_X}\frac{(Y_i - E(X)) }{\sigma_Y}}{n}\)
\(\sigma_X\)是X的标准差:\(\sigma_X = \sqrt{\frac{\sum_{i=1}^n(X_i - E(X))^2}{n}}\)
\(\sigma_Y = \sqrt{\frac{\sum_{i=1}^n(Y_i - E(Y))^2}{n}}\)
可以证明,\(\rho_{XY}\) <= 1, 且当Y= aX +b 时,
\( \rho_{XY}= \begin{cases} 1,\quad a>0 \\[2ex] -1, \quad a<0 \end{cases} \tag{1} \)
皮尔逊相关系数也可以看成是剔除了两个变量量纲的影响,即将X和Y标准化后的协方差。
皮尔逊相关系数反映线性相关系数
样本皮尔逊相关系数
如果两组数据X:{\(X_1\), \(X_2\),..., \(X_n\) }和Y:{\(Y_1\), \(Y_2\), ..., \(Y_n\)}(一般调查得到的数据均为样本数据)
样本均值:\(\bar{X} = \frac{\sum_{i=1}^{n}X_i}{n}\), \(\bar{Y} = \frac{\sum_{i=1}^{n}Y_i}{n}\)
样本协方差:Cov(X, Y) = \(\frac{\sum_{i=1}^n(X_i - \bar{X})(Y_i - \bar{Y})}{n-1}\)
样本Pearson相关系数:\(r_{XY} = \frac{Cov(X, Y)}{S_XS_Y}\)
其中S_X是X的样本标准差:\(S_X = \sqrt{\frac{\sum_{i-1}^{n}(X_i - \bar{X})^2}{n-1}}\),\(S_X = \sqrt{\frac{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}{n-1}}\)
理解误区
这里的相关系数只是用来衡量两个变量线性相关程度的指标
必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何
- 非线性相关也会导致线性相关系数很大
- 离群点对相关系数的影响很大
- 两个变量的相关系数很大也不能说明两者相关
- 相关系数为0,只能说不是线性相关
描述性统计
min # 数组的最小元素
mink # 计算数组的k个最小元素
max # 数组的最大元素
maxk # 计算数组的k个最大元素
bounds # 最大元素和最小元素
topkrows # 按排序顺序的前若干行
mean # 数组的均值
median # 数组的中位数值
mode # 数组的众数
skewness # 偏度
kurtosis # 峰度
std # 标准差
var # 方差
假设检验
置信水平:相信原假设成立的概率
显著性水平:犯第一类错误的概率,我们有多大的概率拒绝原概率
- 提出原假设\(H_0\)和备择假设\(H_1\)
- 在原假设成立的条件下,利用我们要检验的量构造出某一分布的统计量(统计量相当于我们要检验的量的一个函数,里面不能有其他的随机变量;这里的分布一般有四种:标准正态分布,t分布,\(\chi^2\)分布和F分布)
- 将要检验的值代入统计量中,得到检验值
- 画出概率密度函数pdf,并给定置信水平
- 看检验值落在了接受域还是拒绝域
正态分布JB检验
偏度>0 ,正偏态;
峰度>0高尖
斯皮尔曼相关系数
\(r_s = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2 - 1)}\) (其中\(d_i\)为\(X_i\)和\(Y_i\)之间的等级差),可以证明\(r_s\)介于1到-1
斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数
比较
- 连续数据,正态分布,线性关系,用pearson相关系数
- 任意不满足,用spearman相关系数
- 两个定序数据之间也用sperman相关系数(优 良 差)

浙公网安备 33010602011771号