随笔分类 - 图像处理
【转】线性判别分析(Linear Discriminant Analysis, LDA)算法分析
摘要:LDA算法入门一.LDA算法概述:线性判别式分析(LinearDiscriminantAnalysis,LDA),也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵
阅读全文
SLH(Location Sensitive Hash)学习
摘要:考虑一下这个场景,使用网络爬虫高速爬取大量的网页内容,如果想把这些网页进行实时聚类,并从中提取每个网页聚类的主题.我们应该怎么样去做对于普通或常见的聚类算法,比如K-means,或Hierarchical聚类,无法适用于这个常见,对于这些聚类算法无法进行incremental聚类,即在聚类开始前必须知道整个数据集,而这个场景中的数据集是随着爬虫不断增多的.而且这些聚类算法的performance不够高,比如对于K-means需要不断的partition以达到比较好的聚类效果.所以向来聚类算法在我的印象中是低效的,而面对这样一个需要实时数据递增处理的场景,我们需要一种one-shot的高效算法,
阅读全文
PCA算法简介
摘要:PCA是一种能够通过提取数据主成分达到数据降维目的的无监督算法。因为数据之间(如自然图像的像素值)间都是存在冗余的,通过PCA可以将维度为256降到一个较低的近似向量。通过一个2D降到1D的例子来理解一下PCA的原理。假设有如下一堆二维数据,我们通过SVD奇异值变换可以找到,代表这堆数据的两个方向(特征向量的方向,为什么是特征向量,特征值呢?)怎么进行SVD变换呢?我们先计算这堆数据的协方差矩阵如下:数据变化的主方向就是sigma的主特征向量,次方向就是sigma的次特征向量。接下来我们计算旋转后的数据(也就是说把数据投影到以这两个特征方向为坐标轴的坐标平面内)如图:当我们只选取前面的k个主特
阅读全文