随笔分类 -  R-Text Mining 文本挖掘

文本分类入门(十一)特征选择方法之信息增益 (转)
摘要:前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的... 阅读全文
posted @ 2010-12-27 15:48 Tony Ma 阅读(932) 评论(0) 推荐(0)