以Ranking为输出的特征选择方法之评价方式
前一个月做的ReliefF-RFE实验失败了,这两天整理了一下心情,回顾了整个实验过程,今天把自己觉得值得记录的东西写下来。
在对以ranking为输出结果的特征选择方法进行评价时,实验室常用的方法是利用前向浮动搜索,找到一个高峰,截取此时的特征子集作为最后的结果,用此子集做开测作为最后对此特征选择算法的评价。但我始终认为这种方法太粗糙,因为它没有使以ranking为形式的结果充分评价出来,也就是说,通过前向浮动搜索得到子集从而通过这个子集的表现来评价这个ranking方法,会在一定程度上遮盖了ranking的准确性。针对此问题,我想出以下几个办法:
1.已知:特征选择后的ranking结果,某评价标准(如T检验)在所有特征上的值(即所有属性的p-value值)
过程:例如ranking后的结果为4、2、3、1、6、5、8、7、9、0,从排在第一位的属性起,观察其后的属性是否在新的评价标准上不如自己,若有,则惩罚系数加1,有几个此惩罚系数加几.
缺点:这种方法在选择新的评价标准时是个难点,因为既然有这么好的评价标准,那么一开始用这个标准就行了,何必还要ranking一通?
2.利用ranking后的结果为所有属性加权,排在最前的属性权重最大,排在最后的权重为0。把加权后的属性向量放回分类器中进行分类,观察分类精度。
此方法的问题是,正如师兄所说,这种加权方式可行,但是加权的权值不一定合理,因为我们不能确定ranking后的特征之间是以等差数列的方式给出的。
3.构造合成数据,人工制造100个变量,其中有50个好变量,50个差变量。将ranking后的结果根据实际的好坏做出ROC曲线,记录AUC值。目前,此种方法最靠谱。
以上。
p.s.最近终于找到了《大鱼海棠》里的插曲。一首是《旅立ち》另一首是《TVエンディングテーマ》。总算是失败日子里的一点慰藉吧。:-D

浙公网安备 33010602011771号