信息检索中过滤禁止文档的新方法
信息检索中的禁止文档过滤
内容所有者致力于消除可能对客户产生不利影响的不良内容。不良内容可能采取多种形式,如虚假新闻、付费评论、垃圾信息、攻击性语言等。这类数据项(文档)被简称为禁止文档(f-docs)。然而,任何数据清理过程都容易出错。无论清理过程投入多少努力,一些不良内容可能仍然存在。
在某国际学术会议上,某机构的智能购物研究团队发表了一篇关于存在禁止文档时的信息检索(IR)论文。重点在于同时优化两个需求:检索与客户请求相关的内容,并过滤掉禁止文档。
例如,考虑一个社区问答(CQA)网站上提出的问题,目标是按答案质量和相关性进行排名,同时过滤掉不良答案。虽然有些答案是有帮助的或至少是公平的,但有些答案不应向用户展示,因为它们严重损害搜索体验。
过滤算法的挑战
过滤算法容易出现两类错误:(1)误报(即过滤非禁止文档)和(2)漏报(即在结果中包含禁止文档)。通常,排名质量和过滤准确性是独立测量的。然而,过滤后排名列表中剩余的禁止文档数量及其排名位置严重影响排名分数和过滤分数。因此,需要在做出过滤决策时评估系统的排名质量。
合适的评估指标
寻找一个评估指标,根据三个标准强化排名器:(1)从检索列表中修剪尽可能多的禁止文档;(2)不从列表中修剪非禁止文档;(3)根据剩余文档与查询的相关性进行排名,同时将禁止文档推至列表底部。
论文分析了可用于测量搜索结果排名和过滤质量的指标类型。自然选择是归一化折损累积增益(nDCG),该指标对列表中较低位置的结果相关性进行折损;即根据相关性和排名顺序评估排名算法。
使用nDCG时,相关标签与正分数关联,非相关标签与零分关联,“禁止标签”与负分数关联。nDCG分数对各个列表项的分数求和,因此包含禁止文档的排名列表的分数将反映列表中禁止文档的数量、它们在排名中的相对位置及其禁止程度。
nDCG与普通DCG(折损累积增益)分数的不同之处在于,结果通过理想排名列表(根据真实标签排名的列表)的DCG分数进行归一化。它可以解释为给定排名与理想排名之间的距离。
当所有标签分数均为非负时——即结果中前k个文档中没有禁止文档——nDCG有界于范围[0,1],其中0表示所有搜索结果均不相关,而1表示排名理想。然而,存在负分数标签时,nDCG无界,因此不可靠。例如,无界性可能导致某些查询的极端高估或低估,对平均指标分数产生不成比例的影响。
nDCGmin指标(由Gienapp等人在CIKM'20上提出的nDCG修改版本)解决了负分数标签的无界性问题。它测量最差可能排名列表(理想排名列表的逆序)和理想列表的DCG分数,然后使用这两个极端分数进行最小-最大归一化。
然而,论文表明当排名和过滤同时进行时——即当排名器被允许检索(和排名)搜索结果的子列表时——nDCGmin变得无界。作为替代方案,提出了nDCGf,这是nDCGmin的修改版本,通过修改归一化方案以处理子列表检索,解决了这第二个无界性问题。
具体而言,nDCGf测量结果列表所有可能子列表中理想和最差子列表的DCG分数,然后使用这些子列表的极端分数进行最小-最大归一化。从理论和实证上表明,虽然nDCGmin不适合同时进行排名和过滤的评估任务,但nDCGf是一个可靠的指标。可靠性是衡量指标通过测量查询测试集上的偏差稳定性来捕获排名器之间实际性能差异能力的标准度量。
模型构建
建立相关指标后,论文将重点转向联合学习排名和过滤(LTRF)。假设一个LTRF模型优化搜索结果的排名,同时调整过滤阈值,使得任何分数低于此阈值的文档都被过滤掉。
使用两个编译的数据集实验了两个需要排名和过滤的任务:PR(产品评论)和CQA(社区问答)。已公开发布CQA数据集,以支持IR社区对LTRF任务的进一步研究。
在PR数据集中,任务是根据产品评论的有用性进行排名,同时过滤那些标记为垃圾邮件的评论。类似地,在CQA数据集中,任务是对特定问题的人工答案列表进行排名,同时过滤不良答案。结果表明,仅排名和仅过滤都无法提供高质量的排名和过滤列表(以nDCGf分数衡量)。
在任何学习排名框架中,模型训练的关键组成部分是要优化的损失函数,它决定了当前模型相对于最优模型的“损失”。实验了用于两个任务模型训练的几种损失函数,证明了它们在为同时学习和过滤任务生成有效LTRF模型方面的成功。
LTRF是一个新的研究方向,提出了许多值得进一步研究的挑战。虽然LTRF模型在排名和过滤方面取得了成功,但检索列表中禁止文档的数量仍然过高。改进LTRF模型是一个开放的挑战,希望工作能鼓励其他研究人员解决它。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号