浅谈数据挖掘中变量的相关关系

这几天在刷数据挖掘题,有一道题,给了我一百多个特征,然后通过这些特征对y值进行预测。说到底其实是一个回归问题(回归问题是对连续性数据进行预测,分类问题是对离散值数据进行预测),因为有些特征可能是不需要的,我首先计算了各个特征之间的皮尔逊相关系数,注意与我上次介绍的cca可能不同,CCA的是两个视图之间的相关性,这个是两个特征之间的相关性。其实仔细想想又似乎哪里又很相似。

一 万物是普遍联系的

首先来自我们伟大的马克思原理:万物是普遍联系的。估计考研党大家都懂的。

比如人的身高和体重,年龄和身高,年龄和体重,体温与脉搏,乙肝病毒和乙肝。在这些联系中他们的性质又千差万别,程度也各有不同。

客观现象中的数量联系存在着函数关系和相关关系、

函数关系:当一个或者n个变量取定值时候,另一个变量有确定的值与之对应,称为函数关系,可用y=f(x)表示。如下图:

相关关系:当一个变量增大,另一个也随之增大(或者减小),我们称之为共边,也是相关(correl)。注意:相关关系不一定是因为关系,例如不能说我年龄比你大,我一定比你高。重。

二 线性相关---pearson相关关系

2.1 散点图

在确定相关关系之前一般会手机数据,这些数据是成对出现的。比如父亲的身高和儿子的身高。画出的散点图一般如下:

2.2 相关类型

如下图.,相关类型有正相关,负相关,不相关。完全相关。

通过相关散布图的形状,我们大概可以判断变量之间相关程度的强弱,方向和性质,但并不能得知其相关的确切程度。为了进一步知道相关强度,还要进行进一步的计算,一般总体的相关系数用p表示,样本的相关系数用r表示。(当然这些都是建立在数据足够大的情况,如果小就可能会出现很大的误差,比如就只有一个数据,那么不是肯定相关么)。

相关系数范围:-1<r<1

性质:

|r|越接近1越表明两个变量之间的相关性越高,他们之间的关系越密切。

2.3 Person相关系数的计算

适用条件:

  1. 两个变量应该是连续变量。
  2. 两个变量所来自的总体都应该是正态分布,或接近正太的单峰对称分布。
  3. 变量必须是成对的数据。
  4. 两个变量之间是线性关系。

计算公式:

也就是:r=

为了计算方便我们可以化简成这样:

三spearman相关系数

对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。此时可采用秩相关(rank correlation),也称等级相关,来描述两个变量之间的关联程度与方向。

计算步骤:

⑴编秩:将两变量X、Y成对的观察值分别从小到大顺序编秩,用pi表示xi的秩次;用qi表示yi的秩次。若观察值相同取平均秩次。

⑵将秩次带入公式计算:

⑶由样本算得的秩相关系数是否有统计学意义,应作假设检验。

下面给出spearm相关系数0.91和0,92的情况:

四 偏相关系数

在多要素所构成的系统中,当研究某一个要素对另一个要素的影响或相关程度时,把其他要素的影响视作常数(保持不变),即暂时不考虑其他要素影响,单独研究两个要素之间的相互关系的密切程度,所得数值结果为相关性系数。就是研究在知道x,y,z的情况下,固定z的影响,然后研究x和y的情况。

计算步骤:

去掉z的影响之后,x与y的相关系数:

,去除两个其实是一样的,只要迭代一下就好了。

好了今天的相关关系就说到这里了,有兴趣的童鞋还可以去看看虚假相关和品质相关,因为数据挖掘里不太常用,这里就不在说了。

posted @ 2016-12-12 10:43  刘岩--  阅读(5960)  评论(0编辑  收藏  举报