特征选择之Chi卡方检验

特征选择之Chi卡方检验

卡方值越大,说明对原假设的偏离越大,选择的过程也变成了为每个词计算它与类别Ci的卡方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。

 

针对英文纯文本的实验结果表明:作为特征选择方法时,开方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果);文档频率方法的性能同前两者大体相当,术语强度方法性能一般;互信息方法的性能最差。

posted on 2018-09-04 16:40  TMatrix52  阅读(1065)  评论(0)    收藏  举报

导航