Kernel PCA 原理和演示

主成份（Principal Component Analysis）分析是降维（Dimension Reduction）的重要手段。每一个主成分都是数据在某一个方向上的投影，在不同的方向上这些数据方差Variance的大小由其特征值（eigenvalue）决定。一般我们会选取最大的几个特征值所在的特征向量（eigenvector），这些方向上的信息丰富，一般认为包含了更多我们所感兴趣的信息。当然，这里面有较强的假设：（1）特征根的大小决定了我们感兴趣信息的多少。即小特征根往往代表了噪声，但实际上，向小一点的特征根方向投影也有可能包括我们感兴趣的数据；（2）特征向量的方向是互相正交（orthogonal）的，这种正交性使得PCA容易受到Outlier的影响，例如在【1】中提到的例子（3）难于解释结果。例如在建立线性回归模型（Linear Regression Model）分析因变量（response）和第一个主成份的关系时，我们得到的回归系数（Coefficiency）不是某一个自变量（covariate）的贡献，而是对所有自变量的某个线性组合（Linear Combination）的贡献。

在Kernel PCA分析之中，我们同样需要这些假设，但不同的地方是我们认为原有数据有更高的维数，我们可以在更高维的空间（Hilbert Space）中做PCA分析（即在更高维空间里，把原始数据向不同的方向投影）。这样做的优点有：对于在通常线性空间难于线性分类的数据点，我们有可能再更高维度上找到合适的高维线性分类平面。我们第二部分的例子就说明了这一点。

本文写作的动机是因为作者没有找到一篇好的文章（看了wikipedia和若干google结果后）深层次介绍PCA和Kernel PCA之间的联系，以及如何以公式形式来解释如何利用Kernel PCA来做投影，特别有些图片的例子只是展示了结果和一些公式，这里面具体的过程并没有涉及。希望这篇文章能做出较好的解答。

1. Kernel Principal Component Analysis 的矩阵基础

我们从解决这几个问题入手：传统的PCA如何做？在高维空间里的PCA应该如何做？如何用Kernel Trick在高维空间做PCA？如何在主成分方向上投影？如何Centering 高维空间的数据？

1.1 传统的PCA如何做？

让我先定义如下变量：

C = 1 N x i x T i = 1 N X X T

做特征值分解，我们可以得到：

C U = U Λ \Rightarrow C = U Λ U T = \sum a λ a u a u T a

1.2 在高维空间里的PCA应该如何做？

高维空间中，我们定义一个映射

C ¯ = 1 N Φ ( x i ) Φ ( x i ) T = 1 N Φ ( X ) Φ ( X ) T

1.3 如何用Kernel Trick在高维空间做PCA？

在1.1节中，通过PCA，我们得到了

C u a = λ a u a

u a = 1 λ a C u = 1 λ a ( \sum i x i x

进而我们显示PCA投影可以用内积运算表示，例如我们把

x T i C u a x T i 1 N \sum j x j x T j \sum k α a k x k \sum j

K α = λ ~ a α

1 = u T a u a = (\sum i α a i x i) T (

在上面的分析过程中，我们只使用了内积。因此当我们把

1.4 如何在主成分方向上投影？

投影时，只需要使用

u T a t = \sum i α a i x T i t = \sum i α a i (x T i t)

u T a t = \sum i α a i K (x i, t)

1.5 如何Centering 高维空间的数据？

在我们的分析中，协方差矩阵的定义需要centered data。在高维空间中，显式的将

K C i j =< Φ C i Φ C j > = (Φ i - 1 N \sum k Φ

K C = K - 1 N K - K 1 N + 1 N K 1 N

K (x i, t) C =< Φ C i Φ C t > = (Φ i - 1 N \sum

2. 演示 (R code)

首先我们应该注意输入数据的格式，一般在统计中，我们要求

KPCA图片：

R 源代码（Source Code）：链接到完整的代码 KernelPCA

Kernel PCA部分代码：

# Kernel PCA
# Polynomial Kernel
# k(x,y) = t(x) %*% y + 1
k1 = function (x,y) { (x[1] * y[1] + x[2] * y[2] + 1)^2 }
K = matrix(0, ncol = N_total, nrow = N_total)
for (i in 1:N_total) {
  for (j in 1:N_total) {
    K[i,j] = k1(X[i,], X[j,])
}}
ones = 1/N_total* matrix(1, N_total, N_total)
K_norm = K - ones %*% K - K %*% ones + ones %*% K %*% ones
res = eigen(K_norm)
 
V = res$vectors
D = diag(res$values)
 
rank = 0
for (i in 1:N_total) {
    if (D[i,i] < 1e-6) { break }
      V[,i] = V[,i] / sqrt (D[i,i])
    rank = rank + 1
}
Y = K_norm %*%  V[,1:rank]
plot(Y[,1], Y[,2], col = rainbow(3)[label], main = "Kernel PCA (Poly)"
, xlab="First component", ylab="Second component")

3. 主要参考资料

【1】A Tutorial on Principal Component Analysis ,Jonathon Shlens, Shlens03

【2】Wikipedia： http://en.wikipedia.org/wiki/Kernel_principal_component_analysis

【3】 Original KPCA Paper：Kernel principal component analysis，Bernhard Schölkopf, Alexander Smola and Klaus-Robert Müller http://www.springerlink.com/content/w0t1756772h41872/fulltext.pdf

【4】Max Wellings’s classes notes for machine learning Kernel Principal Component Analaysis http://www.ics.uci.edu/~welling/classnotes/papers_class/Kernel-PCA.pdf

posted @ 2015-07-03 17:25 菜鸡一枚阅读(1605) 评论(0) 收藏举报

刷新页面返回顶部

菜鸡一枚

Kernel PCA 原理和演示

Kernel PCA 原理和演示

公告