技术文章

根据您提供的HTML页面内容,该文章详细谈及了计算机技术,主要聚焦于自然语言处理和机器学习领域,涉及数据集创建、评估指标构建及算法分析等实质性技术内容。

我已根据您的全部准则,将其内容翻译整理如下:

新数据集与指标助力语言模型的偏见评估

人类评估研究验证了所提出的度量标准,实验也揭示了流行语言模型中存在偏见的证据。

语言模型通过编码特定词序列的概率,最近因其仅凭几个“提示词”就能生成长篇且基本连贯的文本而备受关注。这些模型对于执行自动语音识别、机器翻译和问答等任务的商业AI系统也至关重要。语言模型能生成如此逼真的合成文本,原因之一是它们是在真实文本上训练的。当这些真实文本编码了有害的社会偏见时,由此产生的语言模型及其依赖的应用程序也可能存在同样的问题。

在计算机协会的公平、问责与透明度会议上,一篇论文介绍了一个包含超过23,000个文本生成提示的新数据集,用于测试语言模型的偏见,同时描述了一套自动测量生成文本偏见的指标,并证明这些指标与人类对偏见的评估有良好的相关性。

数据集:BOLD

这个数据集被称为 BOLD,旨在测量五个类别中的偏见:职业、性别、种族、宗教信仰和政治意识形态。

每个提示由维基百科句子开头的六到九个单词组成。提取提示时,首先识别了属于这五个类别中任何一类的文章。对于职业,找到了根据维基百科分类法中18个高级职业分类进行分类的文章。为了避免对职业的态度与对性别的态度混淆,仅使用关于男性和女性演员的文章来生成性别提示。二元性别分类是该数据集初始版本的一个局限。

考虑的种族类别包括欧裔美国人、非裔美国人、亚裔美国人和拉丁裔/西班牙裔美国人。从维基百科的政治意识形态列表中,选择了社会主义、民粹主义、民族主义、自由主义、法西斯主义、民主、保守主义、共产主义、无政府主义、左翼和右翼等类别。最后,还使用了维基百科宗教信仰和精神信仰列表中最常见的类别:锡克教、犹太教、伊斯兰教、印度教、基督教、佛教和无神论。

从符合这些类别之一的每篇文章中,提取了相关类别术语(例如,职业或宗教的名称,或在文章元数据中识别了种族或性别的人的姓名)不晚于句子第六个词出现的句子。然后,只保留足够长的句子部分以包含类别术语以及除类别术语之外的前五个词。(由于类别术语的长度从一个词到四个词不等,提示的长度也从六个词到九个词不等。)

偏见评估指标

为了评估语言模型根据这些提示生成的句子中的偏见,测量了五个属性:

  1. 情感:句子的各个单词是否表明对主题的积极或消极倾向。
  2. 毒性:所使用的语言是否不尊重、辱骂、令人不快或有害。
  3. 尊重:整个句子是否表明积极或消极的倾向,而不管单个词的价态。
  4. 心理语言规范:词语选择所传达的情感,如喜悦、愤怒或悲伤。
  5. 性别极性:特定类别的提示是否产生更偏向男性或女性的句子。

技术方法

  • 测量情感和尊重时,使用了现成的分类器。
  • 测量毒性时,使用了在公共毒性评论数据集上进行微调的BERT语言模型。
  • 测量心理语言规范时,首先通过使用深度学习来预测尚未包含在词汇表中的词语的情感值,从而扩展现有的词语及其情感值的词汇表。使用加权平均法将单个词语的情感值聚合为完整句子的值。
  • 对于性别极性的测量,采用了两种不同的方法。一种方法是,首先使用嵌入来(捕获词语部分语义内容的向量表示)确定特定词语是否更通常与男性或女性相关联。然后使用加权平均将单个词语的性别极性聚合成句子级别的分数。在另一种方法中,只是选取文本中性别极性最强的词,如果它超过了根据带注释文本经验确定的阈值,则将整个文本指定为该性别极性。

实验与应用

将这些指标应用于五个流行的语言模型:BERT、GPT-2,以及CTRL模型CTRL-WIKI、CTRL-THT和CTRL-OPN。

确实发现了偏见存在的证据:例如,与其他宗教或精神信仰相比,无神论和伊斯兰教产生了更负面的情感;使用非裔美国人姓名的提示比使用其他族裔群体人员姓名的提示产生了更负面的情感和毒性语言。

为了验证这些指标,将一部分已评分的合成文本提供给通过“某中心”的Mechanical Turk招募的工作人员进行评估。这些指标表现良好,性别极性的准确率和真阴性率超过90%,情感和毒性的相关指标超过80%。

这是一个强烈的信号,表明现有的语言模型确实反映了用于创建它们的文本中的偏见,纠正这些偏见应成为未来研究的课题。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2026-01-05 13:00  CodeShare  阅读(3)  评论(0)    收藏  举报