【NLP】蓦然回首：谈谈学习模型的评估系列文章（三）

基于NLP角度的模型评价方法

2016年7月19日19:04:51

摘要：写本文的初衷源于基于HMM模型序列标注的一个实验，实验完成之后，迫切想知道采用的序列标注模型的好坏，有哪些指标可以度量。于是，就产生了对这一专题进度学习总结，这样也便于其他人参考，节约大家的时间。本文依旧旨在简明扼要梳理出模型评估核心指标，重点达到实用。本文布局如下：第一章采用统计学习角度介绍什么是学习模型以及如何选择，因为现今的自然语言处理方面大都采用概率统计完成的，事实证明这也比规则的方法好。第二章采用基于数据挖掘的角度探讨模型评估指标和选择。第三章采用统计自然语言处理的方法看看模型评价方法。第四章以R语言为实例，进行实战操作，更深入了解模型的相关问题。（本文原创，转载请注明出处：基于NLP角度的模型评价方法。)

1 信息检索中的模型评价？

信息检索中的评价经常使用：精确率（precision）和召回率（recall）的概念，而且在自然语言处理模型评价中取得良好的效果。

信息检索中的精确度和召回率度量分析

实例：在信息检索中，我们去百度或者google一个词条，通过搜索算法返回网页信息。这个搜索算法模型如何去度量呢？如图：其中tn表示真的不相关的搜索（一般数目非常大），tp表示就是要搜索的目标网页；fp表示非目标网页，但是错误的标记成目标网页；fn表示搜索目标网页但是错误标记成不相关的网页了；selected表示选择反馈搜索者的数据集条目，系统认为相关的搜索文档（含有标记错误的页面）；target是目标集，目标相关的文档（可能没有被现实出来）。

如上信息检索的文档，其混淆矩阵如下：target是检索目标，-target是非检索目标

精确率：

召回率：

在信息抽取中，精确率和召回率是相逆的（可以选择文档集合中的所有文档，得到100%的召回率，但是精确率却非常低），正是由于这样的原因，将精确率和召回率得到一个全面的度量中，一种方法是使用F度量，公式如下：

其中P是精确度，R是召回率。α表示确定精确率和召回率的权重因子。α=0.5对应着P和R相同的权重；对应α这个值，F度量简化：

总结：在信息检索结果矩阵中，TP+TN是检索的正确数目，FP+FN是检索的错误信息数目，为何不采用准确率和错误率作为性能度量的指标？实际中不采用准确率和错误率去作为指标度量是有道理的，因为大部分实际问题中，TN的值（非目标网页的数目很大，数以亿计。）都非常大，从而使得其他数据显得微不足道。针对该情况，一般采用精确率和召回率作为度量的方法。

2 采用精确率和召回率评估检索模型的优点：

① 准确率数值对于比较小但是我们感兴趣的数值TP、FP和FN不是特别敏感，而精确率和召回率对于这样数据比较敏感。（其实就是避免FN这样庞大的数据的原因）

② 在其他条件相等情况下，F度量和TP的数量成正比，而准确率只是针对错误的数量很敏感。F度量这种倾向和我们直观感觉是一致的，我们对目标事件很敏感，甚至返回一些垃圾数据也在所不惜。

③ 遗漏的目标事件和所谓的垃圾事件对系统的影响其实并不相同，而利用精确率和召回率可以衡量其中差异。

3 准确率和F度量评价结果比较

表中显示的精确率、召回率、F度量（α=0.5）和准确率对于一个100 0000项数据集进行选择的结果，这个数据集中150项数据是目标数据。

（a）表显示随着F度量值的增加准确率在下降。

（b）表显示有同样大小的准确率，但是F度量值仍在增加。F度量倾向最大化真正确TP，而准确率仅仅针对错误的数值敏感。

漏识率：一个不太常用的指标，表示被错误选择的非目标项在非目标集中所占的百分比，也就是错误出现，却被系统判断为正确的。公式表示如下：

当系统很少假正确FP情况下，漏识率可以评价系统构建困难程度。如果非目标项数目非常大，那么FP较大而产生较低的精确率就有可能无法避免，因为非目标数目非常大，那么由于FP较大产生的精确率就可能无法避免。

4 参考文献

【1】数据挖掘概念与技术（364--386）韩家炜

【2】数据挖掘：R语言实战（274--292）黄文、王正林

【3】统计自然语言处理基础（166—169）宛春法等译

【4】统计学习方法（10---13）李航

5 自然语言相关系列文章

【自然语言处理：马尔可夫模型（一）】：初识马尔可夫和马尔可夫链

【自然语言处理：马尔可夫模型（二）】：马尔可夫模型与隐马尔可夫模型

【自然语言处理：马尔可夫模型（三）】：向前算法解决隐马尔可夫模型似然度问题

【自然语言处理：马尔可夫模型（四）】：维特比算法解决隐马尔可夫模型解码问题（中文句法标注）

【自然语言处理：马尔可夫模型（五）】：向前向后算法解决隐马尔可夫模型机器学习问题

声明：关于此文各个篇章，本人采取梳理扼要，顺畅通明的写作手法。系统阅读相关书目和资料总结梳理而成，旨在技术分享，知识沉淀。在此感谢原著无私的将其汇聚成书，才得以引荐学习之用。其次，本人水平有限，权作知识理解积累之用，难免主观理解不当，造成读者不便，基于此类情况，望读者留言反馈，便于及时更正。本文原创，转载请注明出处：基于NLP角度的模型评价方法。

posted @ 2016-07-19 19:06 伏草惟存阅读(1313) 评论(0) 收藏举报

刷新页面返回顶部