Prompt-enhanced Network for Hateful Meme Classification(IJCAI 2024)用于仇恨模因分类的提示增强网络

  • 用于仇恨模因分类的提示增强网络

    摘要:
    社交媒体的动态扩张导致媒体平台上充斥着仇恨模因,凸显了对有效识别和删除的日益增长的需求。认识到传统的多模态仇恨模因分类的局限性,这种分类严重依赖外部知识,并存在包含不相关或冗余内容的风险,我们开发了 Pen——一种基于提示学习方法的提示增强网络框架。具体来说,在通过提示方法构建序列并用语言模型编码后,我们对编码序列进行区域信息全局提取,以实现多视图感知。通过捕获有关推理实例和演示的全局信息,Pen 通过充分利用序列信息来促进类别选择。这种方法显著提高了模型分类的准确性。此外,为了增强模型在特征空间中的推理能力我们在框架中引入了 promptaware 对比学习,以提高样本特征分布的质量。通过对两个公共数据集进行广泛的消融实验,我们评估了 Pen 框架的有效性,同时将其与最先进的模型基线进行比较。我们的研究结果强调,Pen 超越了手动提示方法,在仇恨模因分类任务中展示了卓越的泛化和分类准确性。
     
    1. 摘要:社交媒体发展让仇恨性模因泛滥,急需有效识别和清除。传统多模态仇恨性模因分类依赖外部知识,存在引入无关冗余内容的风险。本文提出 Pen 框架,用提示学习方法,经提示构建序列并用语言模型编码,进行区域信息全局提取以多视角感知,还引入提示感知对比学习提升样本特征分布质量。在两个公开数据集上的实验表明,Pen 框架优于手动提示方法,在仇恨性模因分类任务中泛化能力和分类准确率更优。代码可在https://github.com/juszzi/Pen获取。
    1. 引言:互联网发展使社交媒体成为主要交流平台,模因(图像和短文本组合)流行,但也被用于传播仇恨言论。早期研究通过模态对齐融合识别仇恨性模因,后来有研究引入外部知识辅助分类,如将图像转为文本并利用提示引导预训练语言模型预测。然而,这些方法存在依赖外部知识带来的无关冗余内容问题,且现有提示方法未充分考虑序列在特征空间的训练条件。因此,本文旨在通过简单有效的网络机制提取有价值信息,让预训练语言模型自适应选择相关信息进行分类,提出 Pen 框架,将提示方法扩展到特征空间引入提示感知对比学习,提升模型分类性能。
    1. 相关工作
    • 多模态仇恨性模因分类:该任务旨在检测模因中图像和文本的仇恨含义,由 Hateful Memes Challenge 竞赛提出。早期研究探索模态融合方法,近期研究引入外部知识辅助分类,但都存在未有效利用外部知识,忽略其中无关冗余内容的问题。
    • 提示用于仇恨性模因分类:手动提示是将任务描述和文本示例以自然语言形式作为模型输入,如在情感分类中添加提示模板。已有研究将提示方法用于多模态仇恨性模因分类,但手动提示仅处理输入序列引导预训练语言模型推理,模型能否有效吸收提示增强的序列信息存疑,提升模型对序列信息的利用率仍是难题。
    • 对比学习:在自然语言处理领域,对比学习在多个任务中表现出色,如多任务预训练、少样本学习、零样本立场检测和仇恨分类等。当前对比学习方法多基于简单的面向标签的样本特征聚类或样本驱动的自监督对比学习,应用目标较窄,探索新形式的对比学习方法有望提升模型性能。
    1. 方法
    • 问题定义:将仇恨性模因分类任务定义为一系列二元组,包含相关的文本和图像。通过图像转文本工具将多模态转化为单模态,拼接文本和图像字幕,添加提示模板、示例和外部知识,输入预训练语言模型,让模型评估 [mask] 标记选择输出标签。
    • 区域信息全局提取:在数据处理阶段,从训练集中随机选择仇恨和非仇恨实例的示例。为让预训练语言模型更好理解推理实例内容,便于其与示例对比确定类别,需对输入模型的序列进行区域分割并提取全局信息。输入序列包含推理实例信息、仇恨和非仇恨示例信息以及提示模板,各区域有固定最大长度,不足则填充,超长则截断。将处理后的序列输入 Roberta-large 模型得到整体嵌入特征,再用长短期记忆网络(LSTM)从三个区域的编码表示中提取全局信息。
    • 提示增强多视角感知:由于序列中示例对应的提示模板标签已表明类别,可通过融合提示模板中特殊标记的特征,增强推理实例和示例全局信息中与仇恨相关的特征。将融合后的向量分别输入仇恨感知网络和非仇恨感知网络,学习推理实例与仇恨、非仇恨示例的关系,再通过软门控机制得到最终融合信息特征。最终的分类不仅依赖融合信息特征,还引入仇恨感知信息、非仇恨感知信息和推理实例信息进行多视角感知,提高分类准确性。
    • 提示感知对比学习:为进一步提升模型在特征层面理解仇恨与非仇恨的关系,引入对比学习改善样本特征分布质量。包括面向类别的对比学习,利用标签信息,使同类样本的掩码特征向量在特征空间距离拉近,不同类样本的距离增大;以及面向提示的对比学习,使推理实例的 [mask] 特征向量更接近同标签示例的特殊标记特征向量,远离不同标签示例的特征向量。最终整体损失由交叉熵损失、面向类别的对比学习损失和面向提示的对比学习损失加权求和得到。
    1. 实验设置
    • 数据集:使用 FHM 和 HarM 两个公开数据集进行评估。FHM 数据集由 Facebook 开发发布,是众包多模态仇恨性模因分类挑战的一部分;HarM 数据集包含从 Twitter 收集的与 COVID-19 相关的真实模因,将其中非常有害和部分有害类别合并为有害类别。实验可利用 Prompthate 和 Pro-Cap 方法预处理的图像字幕和外部知识。
    • 基线方法:将 Pen 框架与多种先进模型对比,基线方法分为单模态(仅文本的 Text-Bert 和仅图像的 Image-Region)和多模态(Late Fusion、MMBT-Region、ViLBERT CC、Visual BERT COCO 等),还对比了近期仇恨性模因分类方法 MOMENTA、Prompthate 和 Pro-Cap。使用准确率和宏平均 F1 分数作为评估指标,为保证公平比较,对每个方法在十个随机种子下的模型性能取平均值。
    • 实验结果:在 HarM 和 FHM 数据集上,Pen 框架的宏平均 F1 分数高于仅依赖提示方法的 Prompthate,Pen\(_{Cap}\)在这两个数据集上的宏平均 F1 分数也高于 Pro-Cap,证明了 Pen 框架的有效性。同时发现 Pen\(_{Cap}\)在 FHM 数据集上性能提升更明显,推测是因为 HarM 数据集规模小且仇恨元素单一,Pen 基于现有信息就能准确判断,而 FHM 数据集仇恨因素更多样,需要更丰富的外部知识支持。
    • 消融实验:对 Pen 框架的不同模块进行消融实验,结果表明移除提示增强多视角感知模块会显著降低模型性能,说明该模块在提炼序列特征、引导模型关注推理实例与示例联系方面很有效;移除提示感知对比学习模块,在 HarM 数据集上模型性能大幅下降,在 FHM 数据集上无明显下降,推测是因为 HarM 数据集样本特征结构简单,基于欧氏距离的特征分离方法效果好,而 FHM 数据集特征结构复杂,基于类别的特征处理效果不佳。此外,两个对比学习机制的部分调整对模型性能影响较小,但整体优于完全移除对比学习。
    • 可视化:通过 T-SNE 可视化 Pen、去掉提示感知对比学习模块的 Pen 和 Prompthate 在 HarM 测试集上学习到的样本特征。结果显示,Pen 框架能更好地聚类同类标签样本特征、分离不同标签特征,证明了提示感知对比学习方法可提升样本特征质量,且 Pen 框架的提示增强多视角感知模块能学习到更明显的样本特征分离趋势,增强仇恨性模因分类性能。
    1. 结论和未来工作:本文提出用于仇恨性模因分类的 Pen 框架,将提示方法扩展到特征空间,通过多视角感知增强推理实例与示例的关系,利用提示感知对比学习提升样本特征分布质量,在两个公开数据集上有效提升了提示方法的效果,展示了出色的泛化和分类能力。未来计划将该框架扩展到少样本学习任务,提高提示方法在低资源纯文本分类任务中的准确性。

    主要架构图介绍

     
     
    文章中的架构图展示了 Pen 框架的结构,主要包含区域信息全局提取、提示增强多视角感知和提示感知对比学习三个模块。
    1. 区域信息全局提取:输入序列包含推理实例(蓝色区域)、仇恨示例(红色区域)、非仇恨示例(绿色区域)和提示模板(橙色区域)。对输入序列进行区域分割,确保各区域固定长度后输入 Roberta-large 模型,得到整体嵌入特征,再用 LSTM 网络从不同区域提取全局信息,分别得到推理实例和示例的全局信息。——过去的序列拼接方法的不确定性导致的可变序列长度,有必要对输入模型的序列进行区域分割。??(文章原话)
    1. 提示增强多视角感知:从提示模板区域提取特殊标记特征向量,与推理实例和示例的全局信息向量融合,分别输入仇恨感知网络和非仇恨感知网络,得到仇恨感知信息和非仇恨感知信息,再通过软门控机制融合得到最终融合信息特征。同时,将推理实例信息、仇恨感知信息、非仇恨感知信息和融合信息特征结合经线性分类器得到最终分类分数。————由于序列 L 中与演示相对应的提示模板中的标签标记已经指示了类别,因此我们考虑在提示模板中加入特殊标记的特征(如图 3 的起始区域中以粗体突出显示),以增强推理实例的全局信息和演示的全局信息中的 hatefulrelated 特征。
     
     
    1. 提示感知对比学习:包括面向类别的对比学习和面向提示的对比学习。面向类别的对比学习利用标签信息,让同类样本的掩码特征向量在特征空间更接近,不同类样本的更远离;面向提示的对比学习使推理实例的 [mask] 特征向量靠近同标签示例的特殊标记特征向量,远离不同标签示例的特征向量。通过这两种对比学习方式,优化模型在特征空间对仇恨与非仇恨的理解,提升样本特征分布质量,最终结合交叉熵损失共同训练模型。
posted on 2025-04-28 15:55  _HankLEE  阅读(102)  评论(0)    收藏  举报