【原】文本挖掘——特征选择

特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改

1.DF——基于文档频率的特征提取方法

概念:DF(document frequency)指出现某个特征项的文档的频率。

步骤:1).从训练语料中统计出保函某个特征的文档频率(个数)

     2).根据设定的阈值(min&max),当该特征的DF值小于某个阈值时,去掉。因为没有代表性。当该特征的DF值大于某个阈值时,去掉。因为这个特征使文档出现的频率太高,没有区分度。

优点:降低向量计算的复杂度,去掉部分噪声,提高分类的准确率,且简单易行。

缺点:对于出现频率低但包含较多信息的特征,对分类很重要,去掉会降低准确率

 

2.IG——信息增益

概念:IG(Information Gain)根据某特征项t(i)能为整个分类提供的信息量来很衡量该特征的重要程度,来决定对该特征的取舍。通俗点,什么是一个特征的信息增益呢,说白了就是有这个特征和没有这个特征对整个分类能提供的信息量的差别。信息量用什么衡量?熵。所以一个特征的信息增益=不考虑任何特征时文档所含的熵-考虑该特征后文档的熵(具体公式等我学会这个博客怎么用公式编辑器后再加上来)

步骤:1.计算不含任何特征整个文档的熵

   2.计算包含该特征的文档的熵

   3.前者-后者

优点:准,因为你选择的特征是对分类有用的特征(这里需不需要设置阈值?)

缺点:实际情况里,有些信息增益较高的特征出现的频率较低(?跟频率有毛线关系?还是这里也要把所有特征的信息增益算出来然后从高到低排列?可是这根频率也没有关系啊。哦,是跟公式计算有关。这里没写公式,所有有疑问,回头把公式补上,争取用最简单的话描述出来)

解决方法:1).训练语料中出现的所有词的信息增益

     2).指定阈值。低于阈值的,删。或者指定选择的特征数,把所有特征的信息增益降序排列来选择。

 

3.CHI——卡方统计量

概念:CHI衡量的是特征项t(i)和C(j)之间的相关联程度。假设t(i)和C(j)之间符合具有一阶自由度的卡方分布,如果特征对于某类的卡方统计值越高,它与该类之间的相关性越大,携带的信息越多,繁殖则越少。

步骤: 两种方法:1.计算特征对每个类别的CHI值,在整个语料上分贝找每个类别的最大的值,把这个值设置为阈值,低于阈值的,删。

         2.计算个特征对于各类别的平均值,以这个平均值作为各类别的CHI值(为什么要这样做呢?可不可以取中值啥的?这个效果怎么样?)

优点:待补充

缺点:待补充

 

4.MI——互信息法

概念:MI(mutual information)指互信息,越大,则特征t(i)和C(j)之间共同出现的程度越大,如果两者无关,那么互信息=0。

步骤:两种方法,和CHI一样,最大值方法和平均值法

优点:待补充

缺点:待补充

 

还有一些其他的,针对中文的,英文的,等等,周一回来补充好了,顺便把公式补上。今晚还要赶火车 = =

posted @ 2015-12-18 15:56  Charlotte77  阅读(2861)  评论(0编辑  收藏  举报