论文总结4 特征选择方法

1、信息增益IG

InfGain (W)

=H(C)-H(C|W )

=P(W)∑iP(C_i|W)logP(C_i|W)/P(Ci)+P(`W)∑iP(C_i|`W)logP(C_i|`W )/P(C_i)

2、期望交叉熵ECE

CrossEntryTxt(W) = P(W)∑iP(C_i|W)logP(C_i|W)/P(Ci)

3、互信息MI

MutualInfoTxt(W) = ∑iP(C_i)logP(W|C_i)/P(W)

4、改进的互信息IMI

IMI(W) = ∑iP(C_i)|logP(W|C_i)/P(W)|

5、互信息比值

MutualInfoRatio(W)=

0, if MaxInfo=0 LessMaxInfo=0;

а, if MaxInfo≠0 LessMaxInfo=0;

MaxInfo/LessMaxInfo, if LessMaxInfo≠0

其中: MaxInfo = max{| logP(W|C_i)/P(W)|}, LessMaxInfo = {| logP(W|C_i)/P(W)|- MaxInfo},i = 1,2…M. M是训练语料的类别数,а是预先给定的一个较大的常数.

比了4和5,5的效果好。

6、文档频率DF

DF(￡)=出现特征f的文档数训练集的总文档数。

7、 X²统计量CHI(X² Statistic)

CHI(F)=ΣP(c_i)x²(t，c_i)= ∑iP(C_i)N(AD-BC)²/(A+C)(B+D)(A+B)(C+D)

8、文本证据权(WET，the Weight of Evidence for Text)

WET(t)=P(t) ΣP(c_i)| P(C_i|t)(1-P(C_i))/P(Ci)(1- P(C_i|t))|

9、几率比(0R，Odds Ratio)

Or(t)=log P(t|C_pos) (1- P(t|C_neg)/ P(t|C_neg) (1- P(t|C_pos)

结论：(1)OR方法的效果是最好的，IG、CHI和ECE次之，WET和DF再次，MI的效果是最差的。 (2)OR之所以会取得最好的效果是因为它不是将所有的类别同等对待，而是只关心目标类别。 (3)MI的效果最差，究其原因可能是MI没有考虑特征词出现的频度。(4)当特征维数从1 000到4 000变化时，F1值的变化是比较显著的，而当特征维数>6 000时，系统性能趋于平稳，其变化是缓慢的。

posted @ 2012-12-05 13:48 书画还家阅读(233) 评论(0) 收藏举报

刷新页面返回顶部

论文总结4 特征选择方法

公告