特征选择算法学习2

特征选择算法学习笔记2

主要讲一下常见的评价函数

评价函数就是给特征选择后选择的好坏做一个直观额解释。。和智能算法中的评价函数是一样的,总得量化展示的

(一)思维导图


个人感觉这个图交代的挺清楚地儿。。可以概括。。源地址https://www.cnblogs.com/babyfei/p/9674128.html

(二)特征选择中常见的评价函数主要分为三种

  • 过滤式 filter
  • 包裹式 wrapper
  • 嵌入式 embeded
### 过滤式 filter 1.定义:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。 简单的来说就是利用概率统计的方法进行评价。。 2.常见方法: 2.1 相关性( Correlation)       运用相关性来度量特征子集的好坏是基于这样一个假设:好的特征子集所包含的特征应该是与分类的相关度较高(相关度高),而特征之间相关度较低的(亢余度低)。可以使用线性相关系数(correlation coefficient) 来衡量向量之间线性相关度。其实就是person相关系数,在R里面的函数就是cor()..

2.2 距离 (Distance Metrics )
运用距离度量进行特征选择是基于这样的假设:好的特征子集应该使得属于同一类的样本距离尽可能小,属于不同类的样本之间的距离尽可能远。
常用的距离度量(相似性度量)包括欧氏距离、标准化欧氏距离、马氏距离等。欧式距离($$\operatorname{dist}(X, Y)=\sqrt{\sum_{i=1}{n}\left(x_{i}-y_{i}\right){2}}$$)偏多。。。

2.3 Chi-squared test(卡方检验)
consistency metrics通常用卡方检验,其思想是找出和预测目标不相关的特征,所以其过程是计算每个特征和预测目标的卡方统计量。

2.4 一致性( Consistency )
若样本1与样本2属于不同的分类,但在特征A、 B上的取值完全一样,那么特征子集{A,B}不应该选作最终的特征集。
2.5 信息增益、信息熵
信息熵:信息熵就是指不确定性,熵越大,不确定性越大
$$H(X)=-\sum_{i=1}^{n} P_{i} \bullet \log {2} P$$
信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含
有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。
信息熵有如下特性:若集合Y的元素分布越“纯”,则其信息熵越小;若Y分布越“紊乱”,则其信息熵越大。在极端的情况下:若Y只能取一个值,即P1=1,则H(Y)取最
小值0;反之若各种取值出现的概率都相等,即都是1/m,则H(Y)取最大值log2m(https://blog.csdn.net/weixin_42296976/article/details/81126883

包裹式wrapper

  这个目前我看的包裹式论文稍微多一点,主要是与原启发式算法相结合
  1.定义:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这 

里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GA,PSO,DE,ABC,GWO,WOA,FA,FPA,BOA,ALO,ACO。一般的是二进制改进算法居多一些。

  2.1分类错误率
     使用特定的分类器,用给定的特征子集对样本集进行分类,用分类的精度来衡量特征子集的好坏。
 公式:$$\text {error}_{-} \text {rate}=\frac{\sum\{1 | Y i \neq P Y i\}}{\sum\{1 | Y i=Y i\}}$$

一些论文里面这个公式居多:$$\text {Fitness}=\alpha \gamma_{R}(D)+\beta \frac{|R|}{|C|}$$

 3常见的分类器
  这个写个专门的吧,挺多的,不过论文中常用的KNN和SVM居多
  <a>https://www.cnblogs.com/gaowenxingxing/p/11829424.html</a>

嵌入式 embeded

  1.定义:
    在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属 
    性。嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
  2.给个思维导图吧
   ![](https://img2018.cnblogs.com/blog/1365906/201911/1365906-20191110095305442-150755377.png)
   这里有几个分类器,我回头单独写出来,给出代码。

Reference:
1.《机器学习》周志华
2.Binary ant lion approaches for feature selection
3.Binary butterfly optimization approaches for feature selection
4.Whale optimization approaches for wrapper feature selection
5.https://www.cnblogs.com/stevenlk/p/6543628.html#移除低方差的特征-removing-features-with-low-variance
6. M. Dash, H. Liu, Feature Selection for Classification. In:Intelligent Data Analysis 1 (1997) 131–156.
7。Lei Yu,Huan Liu, Feature Selection for High-Dimensional Data:A Fast Correlation-Based Filter Solution
8.Ricardo Gutierrez-Osuna, Introduction to Pattern Analysis ( LECTURE 11: Sequential Feature Selection )
http://courses.cs.tamu.edu/rgutier/cpsc689_f08/l11.pdf

posted @ 2019-11-10 09:45  高文星星  阅读(690)  评论(0编辑  收藏  举报