以Ranking为输出的特征选择方法之评价方式

　　前一个月做的ReliefF-RFE实验失败了，这两天整理了一下心情，回顾了整个实验过程，今天把自己觉得值得记录的东西写下来。

　　在对以ranking为输出结果的特征选择方法进行评价时，实验室常用的方法是利用前向浮动搜索，找到一个高峰，截取此时的特征子集作为最后的结果，用此子集做开测作为最后对此特征选择算法的评价。但我始终认为这种方法太粗糙，因为它没有使以ranking为形式的结果充分评价出来，也就是说，通过前向浮动搜索得到子集从而通过这个子集的表现来评价这个ranking方法，会在一定程度上遮盖了ranking的准确性。针对此问题，我想出以下几个办法：

　　1.已知：特征选择后的ranking结果，某评价标准（如T检验）在所有特征上的值（即所有属性的p-value值）

　　过程：例如ranking后的结果为4、2、3、1、6、5、8、7、9、0，从排在第一位的属性起，观察其后的属性是否在新的评价标准上不如自己，若有，则惩罚系数加1，有几个此惩罚系数加几.

　　　缺点：这种方法在选择新的评价标准时是个难点，因为既然有这么好的评价标准，那么一开始用这个标准就行了，何必还要ranking一通？

　　2.利用ranking后的结果为所有属性加权，排在最前的属性权重最大，排在最后的权重为0。把加权后的属性向量放回分类器中进行分类，观察分类精度。

　　　此方法的问题是，正如师兄所说，这种加权方式可行，但是加权的权值不一定合理，因为我们不能确定ranking后的特征之间是以等差数列的方式给出的。

　　3.构造合成数据，人工制造100个变量，其中有50个好变量，50个差变量。将ranking后的结果根据实际的好坏做出ROC曲线，记录AUC值。目前，此种方法最靠谱。

　　以上。

　　p.s.最近终于找到了《大鱼海棠》里的插曲。一首是《旅立ち》另一首是《TVエンディングテーマ》。总算是失败日子里的一点慰藉吧。:-D

posted @ 2011-12-08 21:48 Rita.exe 阅读(371) 评论(0) 收藏举报

刷新页面返回顶部

Rita.exe

以Ranking为输出的特征选择方法之评价方式

公告