CHI统计方法度量特征词和类别之间的相关度

  其中,

A:包含特征词w且属于类别c的文档频数

B:包含特征词w但不属于类别c的文档频数

C:属于类别c但不包含特征词w的文档频数

D:既不属于c也不包含特征词w的文档频数

N:文档总数

CHI统计方法用来度量特征词w和类别c之间的相关度。

当值为零时,表示特征值w和c相互独立;值越大,表示相关性越强,此时特征值w包含类别c相关的鉴别信息越多。

 

去除特征词与类别负相关情况:

posted on 2015-05-21 14:19  _dshizhh  阅读(691)  评论(0)    收藏  举报

导航