05 2012 档案

摘要:在信息领域熵(Entropy)是一个很重要的概念。被用来衡量一个随机变量出现的期望值,第一如下Information gain 则定义如下同样的类似于chi square , information gain 也被用来衡量特征与类别之间的独立性的。所以这种方法可以被用于特征选择中来,选择IG较大的几个特征。但是这种方法显然没有考虑到特征 与特征之间的冗余性。FCBF为了要衡量特征与特征之间的关系,Lei Yu 提出了FCBF (Fast correlation based filter solution)算法首先我们来研究一下information gain 的一个小性质这个可以通过来解决。所 阅读全文
posted @ 2012-05-31 19:57 chend926 阅读(654) 评论(0) 推荐(0)
摘要:Relief 被认为是一种评估特征质量的非常成功的算法。Relief的伪代码:Initialization:given ,set , for t=1:T Randomly select a pattern x from D; Find the nearest hit NH(x) and the miss NM(x) of x ; for i=1: ... 阅读全文
posted @ 2012-05-31 18:01 chend926 阅读(471) 评论(0) 推荐(0)
摘要:参考论文为"Spectral feature selection for supervised and unsupervised learning " 作者 为 Zheng Zhao ;Huan Liu这篇文章的好处在于提出了一种基于"谱图理论"(spectral graph)的特征选取框架,像Laplacian score 和 ReliefF 都属于这个框架的一个特殊情况而已。而这个框架的假设... 阅读全文
posted @ 2012-05-23 19:54 chend926 阅读(708) 评论(0) 推荐(0)
摘要:监督学习,过滤,特征加权第一个问题就是,怎样定义一个"好的"的特征?首先我们尊重数据,数据是大爷,所以一个好的特征得到的结果应该和数据相吻合。即如果原数据中两点相近,那么在该特征下两点也应该相近。其次,好的特征应该能将类之间分开,那么如果一个特征的跨度越到,我们认为这个特征就就具有好的分类特性,衡量这个跨度的就是方差,所以就要有一个大的方差。Laplacian score 的方法这样定义一个特征的权重值,其中其中t 为一个给定值为什么会有Sij?我认为Sij 度量的是Xi 和Xj 之间的距离,所以就为分析某一个特性的时候带入了整体感……下面再化简根据一个叫做spectral 阅读全文
posted @ 2012-05-21 15:27 chend926 阅读(1926) 评论(1) 推荐(0)