Recall, Precision, Detection rate, False Alarm rate

在一个大规模数据集合中检索文档时,对每个查询(Query)我们可以统计出四个值:
   
相关
不相关  
   
1
0
合计
检索到
1
True Positive(TP)
False Positive(FP) Predicted Positive(TP+FP)
未检索到
0
False Negative(FN)
True Negative(TN)
Predicted Negative(FN+TN)
合计
 
Actual Positive(TP+FN)
Actual Negative(FP+TN)
TP+FP+FN+TN
TP:检索到的,相关的 (搜到的也想要的)
FP:检索到的,但是不相关的 (搜到的但没用的)
FN:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
TN:未检索到的,也不相关的 (没搜到也没用的)
 
那么,P = TP/(TP+FP),R =TP/(TP+FN)
召回率,查全率(R):检索到的相关文档 /库中所有的相关文档
准确率(P):检索到的相关文档/所有被检索到的文档
 
D=TP/(TP+FN), F=FP/(FP+TN)
命中率(D): 检索到的相关文档/所有被检索到的文档
误报率(F): 检索到的不相关文档中实验相关的文档/检索到的被认为是不相关的文档
 
准确率和命中率是同一个东西.即所有(被检索到的文档/应该被检索到的文档)
误报率是不检索的命中率.
posted on 2013-05-07 09:33  york_hust  阅读(1625)  评论(0编辑  收藏  举报