群智标注系统中质量管理设计与实现(转载,作者:胡平 陈敬东 曾真 )

摘 要 现有的图像标注需要标注人对图像内所有目标进行手工标注,时间漫长,过程复杂,耗时严重,且人具有自主 性,在此过程中标注质量存在波动。基于此,论文设计一个通用的智能标注模型,以群智众包的形式将标注任务分派给各个 标注者,标注者仅需对智能标注后的图像进行补充优化,大幅度提高了任务的效率,并且通过增加质量管理模块,提高了系 统可靠性。通过试验,验证了该模型的可行性和有效性。

关键词 图像标注;智能标注;群智;众包

中图分类号 TN911.73 DOI:10.3969/j.issn.1672-9730.2020.05.027 

1 引言
随着深度学习的兴起,训练集标签的质量问题 越来越被重视,样本训练集需要海量标签样本,仅 凭个人的力量难以完成,本文将群智众包与图片标 注两者相结合[1~3],通过网络上在线标注人对需要 标注的图像分工标注来减轻工作量。由于群智标 注是网络上的众多标注人进行标注,人的自主性导 致标注质量存在波动。本文设计了一个通用的智 能标注系统,适用于各类目标物的标注工作,以群 智众包的形式将标注任务分派给+各个标注人,标 注人仅需对智能标注后的图像进行补充优化,增加 的质量监督模块用来剔除标注质量较差的结果,提高和保障了用于训练的标注数据的质量。 

2 群智标注系统
一个典型的群智系统包括:任务分析、任务分 配、任务执行、结果筛选,并最终得出系统想要获取 的结果。如图1所示,首先任务分析在本系统中具 象为“标注图片”,当需要某类目标物的样本标签 时,将包含此类物体的图片分配给网络上各个标注 人。然后由标注人执行标注工作,同时系统采集其 操作行为,随后进入筛选环节,判断该结果是否满 足质量保障要求,对不满足要求的结果进行剔除。 能快速获得结果不是系统唯一目的,人具有自 主性,在动态开发的互联网环境中,可能受到时间环境等多因素影响,从而导致提交的结果具有不确 定性,因此设计出的群智系统不仅要满足任务需 求,还需要保证系统输出结果的质量[4~5]。典型的 质量保障方法一般是从三个方面进行研究[6]: 1)任 务设计:系统任务为标注图片,较为简单,界面设计 容易。2)标注人高效管理:在本例中通过使用已知 答案的黄金标准数据对标注人进行测试,考察标注 人的标注态度及能力,制定分级规则,激励标注人 在闲暇之余更认真完成标注任务,发挥个人价值。 3)任务结果处理:结果筛选是指系统对标注人提交 的结果进行预处理,筛选掉质量较差的结果,本文 添加质量管理模块,有效剔除低质量结果。

3 标注质量管理模块设计

3.1 标注行为分析模型 本文设计的标注人行为分析模型共分为4个 阶段:模型定义、行为采集、行为分析、任务分配及 激励。行为采集模块用于采集标注人的行为信息 并保存为json文件;行为分析模块用于分析保存下 来的文件,判断标注结果是否满足要求。任务分配 及激励模块对标注人的行为进行刻画[7],给标注人 贴上标签,有助于后续系统进行任务分配,将预处 理后图片困难的分配给标注态度认真的标注人,将 简单地分配给标注态度较差的标注人,合理地分配 任务,建立出高效率的分配模型。

3.2 质量影响因子建模 标注人的行为建模主要从五个方面诠释[8]:及 时性、结果评价、标注人刻画、性能以及任务本身因 素。 从图2构造的模型可看出,及时性主要判断出 该标注人提交的结果是否满足时效性。结果评价 通过对比各个标注人画出的标注框数量和标注框 之间中心位置的偏差判断标注人结果是否可靠。 标注人刻画用来刻画标注人的标注能力。性能方 面通过各个方面情况综合判断标注质量是否与外 因有关。最后还存在任务本身的因素,任务自身较为复杂或者任务报酬较低也可能会影响任务质量。

3.3 标注人行为模型 在对标注人的行为进行采集后,形成了标注人 的标注行为模型,通过将新的标注人标注行为与已 存在的标注人标注行为进行横向对比以及标注人 自身新标注行为与历史标注行为纵向对比,判断标 注人的标注结果是否存在异常,以此为依据剔除该 标注结果[9]。在标注质量方面,图片内标注个数是决定一幅图片是否标注足够正确的重要因素[10],因此标注个数应占有最大的权重。 标注人的操作记录能侧面反映标注人的态度 是否认真,图片信息内标注框数量、面积、偏移量等则能反映出标注结果是否正确。

3.4 行为分析算法流程图 群智工作在理想情况下能够加速工作的进程, 节约时间以及费用,但是在实际情况下,不少标注 者由于各种原因会提交低质量的标注结果,如果不 加以控制这种情况发生,会使得任务结果朝着错误 方向回归[9],引起群智任务的失败。群智标注工作 中可能出现的恶意行为,即在标注过程中,标注人未注意到或者故意为之,从而出现错误的标注结 果。标注人参与群智众包任务,主要是被金钱、声 誉等激励所吸引,暂时还没有哪一种算法能够精准 给出标注结果的对错,因此可能产生不少恶意行 为。但可以通过对标注行为进行分析,判断结果是否异常。

系统首先读取采集模块保存下的 标注人行为信息文件,进而索引计算恶意评价 BMN 时需要的数据,在各类恶意行为评价中,既有串行、 并行,也有串并行综合。经综合协同评价分析得出 判断结果,如果满足各类恶意行为判断阈值[11],则 最终将该图片标注结果进行保存。 

4 行为算法设计与实现

4.1 第一类恶意标注行为 第一类属于随机类型,产生这类恶意标注行为 的主要因素是该类标注人主要是被激励所吸引,但 其毫无责任心而言,这类标注人标注图片完全依赖 心情,随意标注,随机程度较高,因此标注结果与其 他认真进行标注的标注人标注结果存在明显偏差, 对此可以使用欧几里得距离计算相似度[12],相似度 值为0~1之间,设计合适的阈值,低于阈值的标注 人属于离群标注行为,剔除该标注结果。 对于第一类恶意标注行为,标注人对同一幅图 进行标注的结果,使用相似度算法进行检测,通过 比较新标注人操作内容与原有标注人操作的相似 度来推测标注人标注的质量,将相似度低于阈值的 标注人标注结果视为不合格结果。 欧氏距离用来测量多维空间中个体之间的距 离,距离越远说明个体差异越大,具体计算公式为 D(SikSjk) = å k=1 n (Sik -Sjk)2 (1) 对于同一幅图片,式中 Sik 表示第i个标注人的 第k个属性值,将其与第j个标注人的第K个属性值 进行对比,得出新标注人与原标注人操作的欧式距 离。 计算出欧氏距离后,使用式(2)计算相似度:K1 = 1 1+D(SikSjk) (2) 根据以往经验,计算出的相似度在0.8以上视 为数据合格,反之剔除结果。

4.2 第二类恶意标注行为 第二类恶意标注行为属于统一标注类型,使用 同一类型的标注方法[11~13],如可能存在大量标注人 仅点击智能识别后便提交结果,或者在点击智能标 注后,每次添加标注框后的操作步骤如出一辙,产 生这类恶意标注行为的主要因素是因为本系统添 加了智能标注算法,标注人点击智能标注算法就能 完成大部分工作,没有耐心对存在的其他可能目标 物进行判断,并且由于这类标注人可能较多,因此 少数服从多数原则不再适用,此时可对标注人标注 时间、标注步骤进行记录,如果多幅连续图片都存 在标注时间过短、标注步数过少等行为,或智能识 别置信度较低的标注框未进行优化操作。则剔除 该幅图标注结果。 对于第二类恶意标注行为,Kouritzin等在研 究如何将数据分类为真实数据或者伪造数据时,检 测了新一次投掷硬币与之前硬币投掷的序列差异, 得出了一组计算公式[14~15]。该公式同样适用于本 文群智系统中的标注质量检测算法,第二类恶意标 注人拒绝勤奋工作,每次使用同一种方法进行标 注,就如同抛掷硬币,每次都出现的是正面朝上一 样,如果标注人消极工作,每次都进行的是同一种 操作,通过该序列差异,可以检测出恶意标注人的 存在。
K2 =
ånϵN|n|×(fnJs -1){åjϵJjs ˉ
(Dij)2}
åjϵJs|Jjs ˉ|
(3)
标注人能进行的操作包括:进行智能识别、添 加、删除标注框、放大、缩小标注框、拖动标注框。 式中N集合是标注人标注图片出现的各种操作组 合的集合,Js 表示标注人s标注图片时操作记录的 集合,Dij 表示标注人对同一幅图片做的相关操作 组合与其他标注人的操作组合不同的频数,fnJs 表 示标注人标注图片时生成的操作组合,在其作出所 有判断集合 Js 中出现的频数,根据相关文献中的 试验经验, K值取1.6能够有效发现统一类型的恶意标注人。

4.3 算法协同设计与实现

在执行大型的群智任务过程时,不可避免地会 遇到多类恶意行为发生,根据图3流程将若干类恶 意行为综合协同分析,能够有效剔除质量较差的标注结果。

本文相关原型系统可分为硬件部分和软件部 分,硬件部分包含一台服务器,一台交换机和若干 终端;软件部分主要包含标注模块、采集模块和分 析模块,各模块均采用JAVA语言编写。标注模块 在Android上编写,智能识别算法置于服务器上,通 过交换机与终端联系,标注人进行标注操作时,采 集模块同步记录其各个操作,最终记录成json文件 并上传到服务器保存。分析模块在IDEA上完成, 用于解析json文件,获取用于公式计算的各个变量 数据,并生成结果。 

5 试验结果与分析

本次试验给定100个图片(所有图片都事先认 真进行标注过,可视为黄金标准数据),试验目标物 体为车辆,标注人对未标注过的图片进行标注,总 共获得1000个标注结果。运行筛选程序可获得剔 除个数,人工对比黄金标准数据可获得实际不合格 的个数,记录的试验结果如表2所示。 

表2 试验结果
第一类数据记录 第二类数据记录 两类算法协同
剔除个数 312 201 487
实际不合格个数 372 258 418
剔除率 0.838 0.779 1.165

如表2所示,剔除个数为运行筛选程序获得的 不合格个数,实际不合格个数为对比标注人标注的 结果与标注数据得出的个数,两者的比值为剔除 率。由试验结果可知,当恶意标注行为发生时,更 容易出现第一类恶意行为。后续由于对标注结果 同时作了横向、纵向比较,当同时满足两类恶意行 为时,剔除的个数会更多,剔除率甚至超过1,在群 智众包背景下,标注人群体大,图片标注数量多,即 使剔除率超过1,只要比例不是太高系统也能接 受。 

6 结语
本文将群智众包思想与图像标注进行了结合, 针对图片标注结果的质量控制问题,研究了标注人 参与群智标注任务中可能存在的不合格标注行为, 通过分析群智标注过程中的两类恶意标注行为,将 欧式距离相似度计算与仿硬币序列算法结合运用 于质量筛选过程,有效发现并剔除低质量标注人标 注结果。但是由于检测算法需要大量标注图片进 行对比,因此当一个标注人仅标注几幅图,或一幅图只有几个人标注的时候,即无法进行横向、纵向 对比,系统不能很好地完成质量检测工作。

本文提出的系统模型还具有一定的通用性,不 需要初始的智能识别算法也能通过群智获得足够 多的标注样本,其可以检测识别多类物体。下一步 可将该系统在多个行业内试验,观察系统执行质量 检测的效果。

参 考 文 献 [1]HoweJ.Theriseofcrowdsourcing[J]. WiredMagazine, 2006,14(6): 1-4. [2]郭斌,翟书颖,於志文,等. 群智大数据:感知,优选 与理解[J] . 大数据,2017,3(5):2017052. [3]SaabF,ElhajjIH,KayssiA,etal.ModellingCognitive BiasinCrowdsourcingSystems[J]. CognitiveSystemsRe⁃ search,2019,58:1-18. [4]GadirajuU,YangJ,BozzonA.Clarityisaworthwhile quality:On the role of task clarity in microtask crowd⁃ sourcing[C]//Proceedingsofthe28thACMConferenceon HypertextandSocialMedia.ACM,2017:5-14. [5]JiangJ,AnB,JiangY,etal.Understandingcrowdsourc⁃ ingsystemsfrom amultiagentperspectiveand approach [J]. ACMTransactionsonAutonomousandAdaptiveSys⁃ tems(TAAS),2018,13(2):8. [6]孙海龙、方毅立、李国良.群智系统的质量保障方法 [J] .中国计算机学会通讯,2018,14(11):18-25. [7]唐晓斐. 众包平台在线工作者行为模型分析与研究 [D] .武汉:大连理工大学,2017. [8]孟韬,张媛,董大海.基于威客模式的众包参与行为影 响因素研究[J] .中国软科学,2014(12):112-123. [9]武强. 社会化标注系统中不同主题资源的用户标注行 为分析[D] .太原:山西医科大学,2018. [10]张谦益. 基于众包采集的表情识别训练系统的研制 [D] .武汉:华中科技大学,2017. [11]赵玉凤. 图像检索中自动标注技术的研究[D] .北京: 北京交通大学,2009. [12]赖建华,唐敏. 用户异常行为分析方法研究与应用 [J] .软件导刊,2019,18(08):181-185. [13]岳德君. 众包质量评估与优化策略的研究[D] .沈阳: 东北大学,2015. [14]张志强,逄居升,谢晓芹,周永.众包质量控制策略及 评 估 算 法 研 究[J] . 计 算 机 学 报 ,2013,36(08): 1636-1649 [15]KouritzinMA,NewtonF,OrstenS,etal.Ondetecting fakecoinflipsequences[M].MarkovProcessesandRe⁃ latedTopics:AFestschriftforThomasG.Kurtz.Insti⁃ tuteofMathematicalStatistics,2008:107-122.

posted @ 2020-11-30 16:44  JoeNi  阅读(317)  评论(0)    收藏  举报