浅谈数据挖掘中变量的相关关系

这几天在刷数据挖掘题，有一道题，给了我一百多个特征，然后通过这些特征对y值进行预测。说到底其实是一个回归问题（回归问题是对连续性数据进行预测，分类问题是对离散值数据进行预测），因为有些特征可能是不需要的，我首先计算了各个特征之间的皮尔逊相关系数，注意与我上次介绍的cca可能不同，CCA的是两个视图之间的相关性，这个是两个特征之间的相关性。其实仔细想想又似乎哪里又很相似。

一万物是普遍联系的

首先来自我们伟大的马克思原理：万物是普遍联系的。估计考研党大家都懂的。

比如人的身高和体重，年龄和身高，年龄和体重，体温与脉搏，乙肝病毒和乙肝。在这些联系中他们的性质又千差万别，程度也各有不同。

客观现象中的数量联系存在着函数关系和相关关系、

函数关系：当一个或者n个变量取定值时候，另一个变量有确定的值与之对应，称为函数关系，可用y=f(x)表示。如下图：

相关关系：当一个变量增大，另一个也随之增大（或者减小），我们称之为共边，也是相关（correl）。注意：相关关系不一定是因为关系，例如不能说我年龄比你大，我一定比你高。重。

二线性相关---pearson相关关系

2.1 散点图

在确定相关关系之前一般会手机数据，这些数据是成对出现的。比如父亲的身高和儿子的身高。画出的散点图一般如下：

2.2 相关类型

如下图.，相关类型有正相关，负相关，不相关。完全相关。

通过相关散布图的形状，我们大概可以判断变量之间相关程度的强弱，方向和性质，但并不能得知其相关的确切程度。为了进一步知道相关强度，还要进行进一步的计算，一般总体的相关系数用p表示，样本的相关系数用r表示。（当然这些都是建立在数据足够大的情况，如果小就可能会出现很大的误差，比如就只有一个数据，那么不是肯定相关么）。

2.3 Person相关系数的计算

适用条件：

两个变量应该是连续变量。
两个变量所来自的总体都应该是正态分布，或接近正太的单峰对称分布。
变量必须是成对的数据。
两个变量之间是线性关系。

计算公式：

也就是：r=

为了计算方便我们可以化简成这样：

三spearman相关系数

对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。此时可采用秩相关（rank correlation），也称等级相关，来描述两个变量之间的关联程度与方向。

计算步骤：

⑴编秩：将两变量X、Y成对的观察值分别从小到大顺序编秩，用pi表示xi的秩次；用qi表示yi的秩次。若观察值相同取平均秩次。

⑵将秩次带入公式计算：

⑶由样本算得的秩相关系数是否有统计学意义，应作假设检验。

下面给出spearm相关系数0.91和0,92的情况：

四偏相关系数

在多要素所构成的系统中，当研究某一个要素对另一个要素的影响或相关程度时，把其他要素的影响视作常数（保持不变），即暂时不考虑其他要素影响，单独研究两个要素之间的相互关系的密切程度，所得数值结果为相关性系数。就是研究在知道x,y,z的情况下，固定z的影响，然后研究x和y的情况。

计算步骤：

去掉z的影响之后，x与y的相关系数：

,去除两个其实是一样的，只要迭代一下就好了。

好了今天的相关关系就说到这里了，有兴趣的童鞋还可以去看看虚假相关和品质相关，因为数据挖掘里不太常用，这里就不在说了。

posted @ 2016-12-12 10:43 刘岩-- 阅读(6054) 评论(0) 收藏举报

刷新页面返回顶部

小花花108

浅谈数据挖掘中变量的相关关系

一万物是普遍联系的

二线性相关---pearson相关关系

2.1 散点图

2.2 相关类型

2.3 Person相关系数的计算

三spearman相关系数

四偏相关系数

公告

小花花108

浅谈数据挖掘中变量的相关关系

一 万物是普遍联系的

二 线性相关---pearson相关关系

2.1 散点图

2.2 相关类型

2.3 Person相关系数的计算

三spearman相关系数

四 偏相关系数

公告

一万物是普遍联系的

二线性相关---pearson相关关系

四偏相关系数