Spars Coding理论

参考网页：

http://deeplearning.stanford.edu/wiki/index.php/Sparse_Coding

http://deeplearning.stanford.edu/wiki/index.php/Sparse_Coding:_Autoencoder_Interpretation

搞了好几天的sparse coding，终于基本上搞明白了，当时看了网页知识觉得挺简单，但当动手做的时候才发现有各种问题，看来动手真的很重要。

Sparse Coding:

　　Sparse Coding是一种无监督学习方法，目标是寻找一组过完备基（over-complete）以更好的表达数据，那么数据就是这一组基的线性表示，即

其实PCA可以找到一组完备基，那么为什么要使用过完备基呢，因为过完备基可以更好的捕捉数据内存的结构，那么系数 $\alpha _{i}$ 由样本x 与稀疏性（sparsity）两者共同决定，所以稀疏性就是只有少数基被激活，即 $\alpha _{i}$ 为1，大多数基未被激活， $\alpha _{i}$ =0 。因此目标函数需要加上稀疏惩罚项：

稀疏惩罚项可以用L0 ,不可导且很难优化，L1 , 或者log 惩罚

从目标函数可以看出，对于一组最优解（ $\alpha _{i}$ ， $\phi _{i}$ ），我们可以将 $\alpha _{i}$ 缩放K倍，将 $\phi _{i}$ 扩大K倍，使目标函数的值更小，为了解决这个问题，我们对基 $\phi _{i}$ 增加约束，类似于在求正交基时要求每个基的模为1。

Sparse Coding的概率解释：

　　假设一张图片可以使用一组K个相互独立的特征 $\phi _{i}$ 及噪声V来表示

　　我们的目标是找到一组特征基 $\phi _{i}$ ，使与经验分布尽可能的接近，即最小化与的KL散度

　　由于 P*(X)为常量，因此上式等价于最大化 $p(x|\phi )$ 的似然函数，现在的问题是 $p(x|\phi )$ 的分布到底是怎样的？由于 $p(x|\phi ) = p(x|\phi,\alpha )p(\alpha )$ ，那么分别计算右边两项即可。

　　假设V是高斯白噪声，那么

　　假设基之间相互独立

　　基于稀疏性的要求，即系数 $\alpha _{i}$ = 0的概率很大，即p( $\alpha _{i}$ )的分布非常的陡，很快落到0，大于0的取值区间很小。

　　因此：

　　我们的目标即优化以下函数：

　　如前面所讲需要增加稀疏惩罚项，那么根据能量原理

Sparse Coding的anutoencoder解释：

　　autoencoder的目标函数是：

　　第一项为重构误差，第二项为稀疏性约束，我们可以通过将s缩放K倍，将A增大K倍而不改变重构误差，使目标函数更小。因为对A增加约束，每一列的模小于1

　　　为方便优化，化为拉格朗日函数：

　　那么问题变为凸优化问题，可以非常方便的求解，gamma为权重衰减因子

　　在使用梯度下降法求解时，第二项在0处不可导，可以通过加平滑项来处理

Topographic sparse coding:

　　　大脑皮层识别图像时，相邻的神经元识别比较相似的特征，一个神经元识别水平边缘，那么相邻的神经元会识别水平方向稍微倾斜一点的边缘。我们也希望我们学习到的特征有类似的特征，即一个特征被激活，那么它的相邻特征会以比较弱的程度被激活，这样学习到的特征之间存在一种“topographic order"。怎样实现这种拓扑结构呢，假设将特征特征保存在一个方阵中，我们期望相邻的特征比较相似，可以通过将这些相似的特征作为一组来进行L1稀疏惩罚，