《数据标注工程》第四章学习笔记及作业:数据标注质量检验(转)

《数据标注工程》第四章学习笔记及作业:数据标注质量检验

《数据标注工程》第四章学习笔记及作业:数据标注质量检验

第四章:数据标注质量检验

一、数据质量影响算法效果

数据质量对算法的影响

  • 机器学习是一种从数据中自动获得规律,并利用规律对未知数据进行处理的过程。
  • 数据标注是让机器学习从数据中更准确有效的获取规律。
  • 数据标注质量80%,机器学习的训练效果只有30%~40%。
  • 数据标注质量达到98%的时候,机器学习的训练效果为80%,且后续提升就没有之前那么明显了。

数据标注质量

二、数据标注质量标准

数据标注的质量标准就是数据标注的准确性

1、图像标注质量标椎

100%准确度的图像标注要求,标注像素点与标注物的边缘像素点存在1个像素以内的误差

①、标框标注:上下左右边框均与标注物边缘像素点有1个像素点以内的误差

②、区域标注:每一个边缘像素点进行检验,误差在1个像素点以内

③、其他图像标注:结合实际的算法制定,质检人员要理解算法的标注要求

2、语音标注质量标准

标注与发音时间轴误差在1个语音帧内

语音标注图片

3、文本标注质量标准

①、多音字标注:标注全部读音,包括方言发音,因此质量检验时需要借助专业性工具

②、语义标注:标注词语或句子的寓意,在检验中分为以下三种情况

  • 针对单独词语或语句进行检验
  • 针对上下文的情景环境进行检验
  • 针对语音数据中的语音语调进行检验

语义标注质检除了借助专业性工具外,还要对上下文的情景环境及语音语调进行理解

三、数据标注质量检验方法

一般的产品检验方法分为全样检验和抽样检验。

1、实时检验

实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务进行过程中。

实时检验流程

①、实时检验方法的优点:

  • 能及时发现问题并解决问题
  • 能够有效减少标注过程中重复错误的重复出现
  • 能够保证整体标注任务的流畅性
  • 能够实时掌握数据标注的任务进度

②、实时检验方法的缺点:

  • 对人员的配备及管理要求较高
  • 一般1质检员负责实时检验5~10名标注员

③、检查内容:

  • 标注员的标注方法
  • 熟练度
  • 准确度
  • 检查时间点为标注员完成一个阶段的标注任务后(数据集分段标注)

2、全样检验

全样检验是标注任务交付前必不可少的过程

全样检验流程

①、全样检验的优点:

  • 能够对数据集做到无遗漏检验
  • 可以对数据集进行准确率评估

②、全样检验的缺点:

  • 需要耗费大量的人力精力集中进行

3、抽样检验

抽样检验是产品生产中一种辅助性检验方法,将抽样检验方式进行叠加,形成多重抽样检验方法。此方法可以辅助实时检验或全样检验,具体如下:

辅助实时检验

  • 适用情况:出现在数据标注任务需要采用实时检验,但质检员和标注员比例失衡,标注员过多的情况。
  • 方法:全样合格就抽样(减少50%),抽样合格就继续减少50%,不合格就全样

辅助全样检验

  • 使用情况:主要作用是减少全样检验中的疏漏
  • 方法:全样合格后,进行抽样,抽样合格就减半,不合格就加倍。多轮抽样均不合格,需要重新全样,多轮抽样没有或只有一轮不合格,就认定为合格,仅需改正抽样发现的不合格标注即可

①、多重抽样检验方法的优点:

  1. 能合理调配质检员的工作重心
  2. 有效地弥补其他检验方法的疏漏
  3. 提高数据标注质量检验的正确性

②、多重抽样加纳方法的缺点:

  1. 只能辅助其他检验方法,如果单独实施,会出现疏漏

四、本章知识点框架

五、作业与练习

1、标框标注的质量标准是什么?根据标框标注的质量标准进行标注与质检。

答:标注时,需要对标注物最边缘像素点进行判断,然后检验标框四周边框是否与标注物最边缘像素点的误差在1个像素以内。

质检时,如果标框的上下左右边缘边框均与目标标注物最边缘像素点误差在1个像素以内,则是一张合格的标框标注图片,否则不合格。

2、区域标注的质量标准是什么?根据区域标注的质量标准进行标注与质检。

答:标注时,需要对标注物的每一个边缘像素点进行检验,同时应特别注意边缘的转折与拐角,避免产生误差。

质检时,如果区域标框像素点与汽车边缘像素点的误差在1个像素点以内,则是一张合格的区域标注图片,否则不合格。

3、语音标注的质量标准是什么?根据语音标注的质量标准进行标注与质检。

答:标注时,标注与发音时间轴误差应在1个语音帧以内。

质检时,需要在相对安静的独立环境中眼耳并用,关注语音数据发音的时间轴与标注区域的音标是否相符,若相符并且误差在1个语音帧以内,则是一段合格的语音标注,否则不合格。

4、实时检验方法的流程与优缺点是什么?

答:当标注员开始标注时,质检员就可以进行检验,当标注完成时,质检员对标注结果进行检验,如果合格则放入已完成数据集,不合格则让标注员返工。

优点是能够及时发现并解决问题,有效减少标注过程中重复错误的重复出现,能够保证整体标注任务的流畅性,能够实时掌握数据标注的任务进度。缺点是对人员的配备和管理要求较高。

5、全样检验方法的流程与优缺点是什么?

答:质检员对全部已完成标注的数据集进行全样检验,合格则存放到已合格数据集中等待交付,不合格则需要标注员进行返工改正标注。

优点是能够对数据集做到无遗漏检验,可以对数据集进行准确率评估。缺点是耗费大量人力精力。

6、抽样检验方法怎样配合其他两种检验方法?流程与优缺点分别是什么?

答:通过辅助实时检查,使质检员的工作重心集中在质量相对不达标的标注员身上,适用于质检员数量不足的情况。通过辅助全样检验,可以减少全样检验中的疏漏,增加数据标注的准确率。

流程:①、辅助实时检验:当标注员完成任务后,质检员会对其进行第一阶段的检验,若全部合格,则第二阶段检验时支队其标注数据的50%进行检验,如果不合格,则在第二阶段时继续全样检验。以此类推。若三个阶段过后依然不合格,则需要重新培训

②、辅助全样检验:全样检验完成后,对标注员进行第一轮抽样检验,若合格,则在第二轮检验时减少50%的数据量。否则在第二轮增加一倍的检测量。若存在两轮不合格的情况下,则需要重新全样检验,若只有一轮不合格,则改正即可。

优点是能够合理调配质检员的工作重心,有效地弥补其他检验方法的疏漏,提高数据标注质量检验的准确性。缺点是只能作为辅助手段,如果单独实施会出现疏漏。

posted on 2022-08-01 14:51  NetPig  阅读(731)  评论(0编辑  收藏  举报

导航