二进制思想与特征选择
从这篇博文得到的启发 从N个数中取出任意个数,求和为指定值的解,二进制版本和通用版本
常见的特征选择方法有Filter方法和Wrapper方法。
Filter方法
• 核心思想是利用某种评价准则给特征打分选择分数高的特征作为特征子集
• 特点:性能只依赖于评价准则的选取,时间复杂度低,速度很快;但是分类精度较低
Wrapper方法
• 在筛选特征的过程当中直接利用所选的特征来训练分类器,根据这个分类器在验证集上的分类精度来评价所选择的特征。
• 特点:分类准确率高,特征子集性能较好,但是性能对学习算法依赖性高,耗时较长
这儿不讲Filter方法,说一说Wrapper方法:
• 把特征集合的所有可能组合都去训练分类器,以分类器的分类精度作为对特征组合的评价指标,选择分类精度最高的特征组合。
关键词:组合,像不像上一篇博文里面的数组里面几个数的组合?目标从几个数之和等于一个目标值变成某个特征组合的分类精度最高。
某个特征选不选就和某个数的选不选一样了呀,选为1,不选为0.这是一个0/1整数规划问题。学术界应该有许多方法可以解决。
更像的类比是数组里面有正数有负数,求一个组合让组合之和最大且组合里面的元素最少。当然 这个问题一眼就知道所有非0整数加起来。
那么换个思路,负数类比成对分类效果有负面作用的,正数类比成对分类效果有正面作用的。这个思路还要琢磨琢磨,因为很难判断一个特征起正面作用还是负面作用。
浙公网安备 33010602011771号