ICA扩展描述

7. ICA算法扩展描述

上面介绍的内容基本上是讲义上的，与我看的另一篇《Independent Component Analysis:

Algorithms and Applications》（Aapo Hyvärinen and Erkki Oja）有点出入。下面总结一下这篇文章里提到的一些内容（有些我也没看明白）。

首先里面提到了一个与“独立”相似的概念“不相关（uncorrelated）”。Uncorrelated属于部分独立，而不是完全独立，怎么刻画呢？

如果随机变量和是独立的，当且仅当。

如果随机变量和是不相关的，当且仅当

第二个不相关的条件要比第一个独立的条件“松”一些。因为独立能推出不相关，不相关推不出独立。

证明如下：

反过来不能推出。

比如，和的联合分布如下(0,1)，(0,-1)，(1,0)，(-1,0)。

因此和不相关，但是

因此和不满足上面的积分公式，和不是独立的。

上面提到过，如果是高斯分布的，A是正交的，那么也是高斯分布的，且与之间是独立的。那么无法确定A，因为任何正交变换都可以让达到同分布的效果。但是如果中只有一个分量是高斯分布的，仍然可以使用ICA。

那么ICA要解决的问题变为：如何从x中推出s，使得s最不可能满足高斯分布？

中心极限定理告诉我们：大量独立同分布随机变量之和满足高斯分布。

我们一直假设的是是由独立同分布的主元经过混合矩阵A生成。那么为了求，我们需要计算的每个分量。定义，那么，之所以这么麻烦再定义z是想说明一个关系，我们想通过整出一个来对进行线性组合，得出y。而我们不知道得出的y是否是真正的s的分量，但我们知道y是s的真正分量的线性组合。由于我们不能使s的分量成为高斯分布，因此我们的目标求是让y（也就是）最不可能是高斯分布时的w。

那么问题递归到如何度量y是否是高斯分布的了。

一种度量方法是kurtosis方法，公式如下：

如果y是高斯分布，那么该函数值为0，否则绝大多数情况下值不为0。

但这种度量方法不怎么好，有很多问题。看下一种方法：

负熵（Negentropy）度量方法。

我们在信息论里面知道对于离散的随机变量Y，其熵是

连续值时是

在信息论里有一个强有力的结论是：高斯分布的随机变量是同方差分布中熵最大的。也就是说对于一个随机变量来说，满足高斯分布时，最随机。

定义负熵的计算公式如下：

也就是随机变量y相对于高斯分布时的熵差，这个公式的问题就是直接计算时较为复杂，一般采用逼近策略。

这种逼近策略不够好，作者提出了基于最大熵的更优的公式：

之后的FastICA就基于这个公式。

另外一种度量方法是最小互信息方法：

这个公式可以这样解释，前一个H是的编码长度（以信息编码的方式理解），第二个H是y成为随机变量时的平均编码长度。之后的内容包括FastICA就不再介绍了，我也没看懂。

8. ICA的投影追踪解释（Projection Pursuit）

投影追踪在统计学中的意思是去寻找多维数据的“interesting”投影。这些投影可用在数据可视化、密度估计和回归中。比如在一维的投影追踪中，我们寻找一条直线，使得所有的数据点投影到直线上后，能够反映出数据的分布。然而我们最不想要的是高斯分布，最不像高斯分布的数据点最interesting。这个与我们的ICA思想是一直的，寻找独立的最不可能是高斯分布的s。

在下图中，主元是纵轴，拥有最大的方差，但最interesting的是横轴，因为它可以将两个类分开（信号分离）。