查准率和召回率理解

问题:

  • 数据倾斜:
    癌症预测为例,以为数据分布不均,导致准确率失真。
  • 精准率和召回率是两个度量值,用来评价推荐结果的质量。

1. 精确率是指检索出的相关文档与检索出的文档总数的比率,衡量的是检索系统的查准率。简单来说就是指检索出来的条目有多少条是准确的。

公式为:

Precision = 提取出的准确信息数\div提取出的信息总数

举个例子,一座猴山里有100只猴子,50只公猴子,50只母猴子。现在需要抓出来公猴子,于是一共取出来30只猴子,其中公猴子有20只。那么抓出公猴子的精准率就是: 20\div30=0.6667

2. 召回率是指检索出的相关文档和文档中所有相关文档数的比率,衡量的是检索系统的查全率。在库里所有准确的条目有多少条被检索出来了。

公式为:

Recall=提取出的正确信息数\div样本的信息条数

还是在那座猴山里,同时还是要抓公猴子,取出来30只猴子,其中公猴子还是20只。那么抓出来公猴子的召回率就是: 20\div50=0.4

当你想要公猴子时,我给你推荐了30只猴子,精准率就是66.7%,召回率就是40%。

 

思考:

这个时候,精准率和召回率都有了,但是两个比率不一样啊,咋整。此时,我们就需要引入一个词,叫做 F 值。

F值简单来说就是综合了精准率和召回率得出的结果。

公式为:

F=(2\times Precision\times Recall)\div(Precision+Recall)

所以推荐给你的猴子到底靠不靠谱呢,看看最终结果。

F=(2\times0.67\times0.4)\div(0.67+0.4)=0.5

结果就表明,推荐给你的猴子里,有50%是你想要的公猴子。

posted @ 2018-01-26 19:51  ·卿欢·  阅读(1630)  评论(0编辑  收藏  举报