所以燃

Information Retrieval --- Classification

一、特征选择:类内代表性、类间区别性、特征子集的最优性

1.DF频率法:选择高频词项

2.互信息MI

image

image

3.χ2 统计量

image

 

二、分类算法

1.线性方法

1.1朴素贝叶斯(假设条件独立)

image

image

image

image

1.2 Rocchio算法:质心法,效果一般不如NBC

基本思想:中心向量是所有文档向量的算术平均,将每篇测试文档分到离它最近的那个中心向量。

image

1.3 SVM支撑向量机:软间隔线性分类器

image

2.非线性方法:KNN最近邻

image

 

三、分类评价

1.P值:该类中正确的结果所占该类总结果的比重

P=CT/(CT+CN)

2.R值:该类中正确的结果占所有类正确结果的比重

R=CT(CT+~CT)

3.F值:调和平均值

F=1/(0.5*(1/P+1/R))

4.Accurary值:

Accuracy = (RR+NN)/(RN + RR + NR + NN)

image

posted on 2013-12-16 22:54  Jizhiyuan  阅读(270)  评论(0编辑  收藏  举报

导航