new谣言
On the Role of Large Language Models in Crowdsourcing Misinformation Assessment → ICWSM 2024
Jiechen Xu et al., The University of Queensland
背景:在线虚假信息的泛滥削弱了网络内容的可信度。众包和大语言模型(LLM)被提出用于评估虚假信息,但 LLM 的输出并不完美。
研究对象:研究众包工作者与 LLM 协作评估虚假信息的场景,分析 LLM 对众包工作者判断的影响。
数据与模型:
- 数据:从 PolitiFact 数据集中选取 120 条平衡党派和真实性的政治声明。
- 方法:
- LLM 输出:使用 GPT-3.5 为每条声明生成真实性标签(0-5)和解释。
- 实验设计:采用 $2\times2$ 因子设计,4 个条件(无 LLM 输出、仅标签、仅解释、标签+解释)。
- 众包任务:通过 Prolific 平台招募美国本土、英语为母语的众包工作者,评估声明真实性并报告信心水平。
评估:
- 评估质量:LLM 输出导致众包工作者倾向于高估真实性,与 LLM 的高估倾向一致。外部一致性(与专家标签对比)和内部一致性(众包工作者间一致性)在各条件下无显著差异。
- 信心水平:LLM 输出对众包工作者的自评信心影响不大,但在提供标签和解释的条件下,与外部一致性正相关。
- 依赖与信任:众包工作者高度依赖 LLM 输出,尤其在提供标签时,但对 LLM 的信任未受 LLM 输出类型显著影响。
- 行为指标:LLM 辅助下,众包工作者减少搜索引擎使用,加快评估速度,但积极使用搜索引擎的工作者对 LLM 输出依赖度低。
成果:揭示 LLM 在虚假信息评估中的“双刃剑”效应,强调其对众包工作者判断的显著影响,同时指出仅提供解释可降低过度依赖风险。
以下是按照指定格式对三篇论文的总结:
Are Large Language Models Good Fact Checkers: A Preliminary Study → arXiv 2023
Han Cao et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:大语言模型(LLM)在自然语言处理任务中表现出色,但其在事实核查中的潜力尚未被系统评估。
研究对象:全面评估LLM在事实核查子任务(如事实验证、解释生成等)中的表现,并与预训练小模型对比。
数据与模型:
- 数据:CheckThat!Lab、AVeriTeC 和 CHEF 三个事实核查数据集。
- 方法:
- 实验设置:在0-shot、1-shot和3-shot等不同设置下,使用不同提示方法测试LLM性能。
- 性能评估:针对不同子任务,采用F1分数、准确率、Meteor分数等指标。
评估:
- 检查值得检测性:GPT-3.5-turbo在1-shot和3-shot设置中表现最佳,但与SOTA模型仍有差距。
- 事实验证:GPT-3.5-turbo在英语事实验证中表现优于基线模型和预训练模型,但在中文事实验证中表现不佳。
- 解释生成:GPT-3.5-turbo生成的解释质量高于基线模型,但LLaMa2-7b表现较差。
- 全管道事实核查:LLM能够同时完成证据检索、事实验证和解释生成,但存在幻觉问题,导致性能不如微调的小模型。
成果:揭示LLM在事实核查中的潜力和挑战,为未来研究提供方向,强调需要进一步探索以提高LLM作为可靠事实核查器的能力。
JustiLM: Few-shot Justification Generation for Explainable Fact-Checking of Real-world Claims → arXiv 2024
Fengzhu Zeng & Wei Gao, Singapore Management University
背景:以往的事实核查中的解释生成任务被简化为对事实核查文章的总结,这种方法在实际应用中存在局限性。
研究对象:提出一种基于检索增强型语言模型的现实方法,利用检索到的证据生成解释,并构建新的基准数据集ExClaim。
数据与模型:
- 数据:基于WatClaimCheck数据集构建ExClaim,包含6951个真实世界的声明及其对应的可信度标签、人类编写的解释,以及957949个文档级别的可检索证据。
- 方法:
- JustiLM模型:基于检索增强型生成(RAG)框架,使用Atlas作为骨干模型,通过文章级和块级蒸馏技术利用事实核查文章作为训练时的辅助信息。
- 蒸馏技术:通过文章级和块级蒸馏,将事实核查文章的信息作为监督信号,训练检索器和语言模型。
评估:
- 性能比较:JustiLM在解释生成任务中优于In-Context Learning(ICL)语言模型,包括Flan-T5、Llama2和Atlas。与GPT-4相比,JustiLM在ROUGE分数和MAUVE分数上表现出色,尽管在SummaCC分数上略低于GPT-4。
- 联合预测和解释:JustiLM在联合预测可信度和生成解释的任务中表现出色,显著提高了可信度预测的准确性。
成果:提出JustiLM模型和ExClaim数据集,为可解释的事实核查提供了新的方法和资源,证明了利用检索到的证据生成解释的可行性。
Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate → arXiv 2024
Kyungha Kim et al., University of Illinois Urbana-Champaign & DAMO Academy, Alibaba Group & Northwestern University
背景:尽管大语言模型(LLM)在文本生成方面表现出色,但其在事实核查中生成可靠解释的能力尚未得到充分研究。
研究对象:提出多智能体辩论精炼(MADR)框架,通过多个LLM作为智能体进行迭代辩论和精炼,以提高生成解释的可靠性。
数据与模型:
- 数据:使用PolitiHop多跳事实核查数据集进行实验,包含445个测试实例,每个实例包含一个声明和多条证据。
- 方法:
- MADR框架:设置两个辩论者(DEBATER)、一个裁判(JUDGE)和一个精炼者(REFINER)。通过辩论和反馈迭代改进解释,直到达成共识。
- 错误分类:定义了九种错误类型,包括实体相关错误、事件相关错误、名词短语相关错误等,以帮助识别和纠正解释中的错误。
评估:
- 自动评估:使用G-Eval工具评估生成解释与证据的一致性,MADR在四种评估协议中的两种上表现最佳。
- 人工评估:通过亚马逊机械土耳其(AMT)进行人工评估,MADR生成的解释在20个样本中有30%是可靠的,错误数量最少。
成果:证明了MADR框架在提高LLM生成解释的可靠性方面的有效性,揭示了LLM在复杂事实核查场景中生成可靠解释的挑战,并提出了适合LLM的评估协议。
1. Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation → LAW-XVIII 2024
Hamidreza Rouzegar & Masoud Makrehchi, Ontario Tech University
背景:文本分类中人工标注训练数据成本高,大语言模型(LLM)自动标注存在可靠性问题,传统主动学习需优化标注选择策略。
研究对象:提出整合人类标注与LLM(GPT-3.5)的主动学习框架,平衡标注成本与分类性能。
数据与模型:
- 数据:3个公开数据集(IMDB用于情感分析、假新闻数据集用于真实性判断、电影类型数据集用于多标签分类)。
- 方法:
- 主动学习:基于不确定性采样,用逻辑回归模型预测概率筛选高不确定性样本。
- 混合标注:根据GPT-3.5标注的不确定性水平,自适应选择人类或机器标注(低置信度样本用人类标注)。
- 代理验证集:从总数据中抽取子集,估算模型在主动学习各迭代阶段的性能,模拟未标注数据分布。
评估:
- 性能与成本:在IMDB数据集,GPT-only标注50%数据时F1值达0.9629,成本仅2.30美元,远低于人类标注的2116.22美元;混合标注(如GPT置信度>70%)在保证F1值接近人类标注(0.978 vs 0.9796)的同时,成本大幅降低。
- 关键发现:GPT-3.5置信度低于阈值(IMDB为70%,其他两数据集为80%)时,标注错误率升至近50%,验证了置信度阈值选择的合理性。
成果:实现标注成本显著降低,同时保持或提升模型精度,开源代码至匿名GitHub仓库。
2. From Skepticism to Acceptance: Simulating the Attitude Dynamics Toward Fake News → arXiv 2024
Yuhan Liu et al., Renmin University of China, Mohamed bin Zayed University of Artificial Intelligence, Alibaba DAMO Academy
背景:传统假新闻传播模型简化现实复杂性,忽略新闻文本语义信息,难以捕捉细粒度观点动态。
研究对象:提出基于LLM的假新闻传播模拟框架(FPS),研究假新闻传播趋势与干预策略。
数据与模型:
- 数据:模拟6类主题假新闻(政治、科学、恐怖主义、自然灾害、金融、都市传说),基于Big 5人格模型构建个体特征。
- 方法:
- 智能体设计:每个LLM智能体具备独特人格(年龄、教育背景等)、短期/长期双记忆系统及反思机制,每日随机交互并更新对假新闻的态度。
- 传播模拟:改进SIR模型(允许“康复”后再次“感染”),引入官方智能体发布辟谣信息,模拟宏观传播趋势与微观个体观点演变。
- 干预策略:测试不同干预时机(早期、中期)与频率(每日、每3天)的效果。
评估:
- 传播规律:政治类假新闻传播最快(4天达峰值),科学类假新闻传播最慢且易被质疑;高宜人性、高神经质人格的智能体更易相信假新闻。
- 干预效果:早期且适度频繁的干预(如每日辟谣)能平衡治理成本与效果,单一辟谣效果有限,部分“顽固信众”(约50%)受干预影响小。
成果:验证FPS与现实观察的一致性,为假新闻治理提供实操策略,开源代码与附录。
3. Correcting misinformation on social media with a large language model → arXiv 2024
Xinyi Zhou et al., University of Washington
背景:社交媒体多模态假新闻(部分真实但误导性)危害大,人工纠正难以及时规模化,现有LLM缺乏实时信息、易 hallucinate且无法处理多模态内容。
研究对象:提出LLM增强框架MUSE,实现多模态假新闻的高质量、及时纠正。
数据与模型:
- 数据:X平台Community Notes数据(247条推文,含高/中质量人工纠正),覆盖政治、健康、经济等领域。
- 方法:
- 多模态处理:结合图像描述模型、名人识别与OCR,生成图像的详细文本描述,适配文本LLM。
- 证据检索:基于LLM生成查询词,检索高相关性、高可信度网页(参考Media Bias/Fact Check评分),提取反驳或支持证据。
- 响应生成:输入证据与来源链接至LLM,生成明确指出(不)准确之处、带参考链接的纠正内容。
评估:
- 纠正质量:13维度评估(如准确性、参考可信度)显示,MUSE整体质量评分8.1/10,比GPT-4(5.9)高37%,比高质量人工纠正(6.3)高29%。
- 鲁棒性:在多模态、未被事实核查、不同政治倾向的内容上表现稳定,生成文本事实性达74%(GPT-4为45%),参考链接可达性近100%(GPT-4为51%)。
成果:提供规模化纠正假新闻的方法与评估框架,开源数据与代码。
4. Attacking Misinformation Detection Using Adversarial Examples Generated by Language Models → arXiv 2025
Piotr Przybyła et al., Universitat Pompeu Fabra, Polish Academy of Sciences
背景:现有对抗样本生成方法查询次数多、语义保留差,难以模拟真实场景中对假新闻检测模型的攻击。
研究对象:提出TREPAT框架,利用LLM生成对抗样本,测试假新闻检测模型的鲁棒性。
数据与模型:
- 数据:BODEGA框架数据集,覆盖4类任务(宣传识别PR、事实核查FC、谣言检测RD、极端党派新闻分类HN)。
- 方法:
- 文本拆分与重述:将文本拆分为短片段,用6种提示(如改写、简化、风格转换)驱动LLM(如OLMO-7B、Llama-3.2)生成重述。
- 变化分解与搜索:用Wagner-Fischer算法将重述分解为原子变化,通过 beam search 逐步应用变化,直至检测模型误判。
- 查询限制:模拟真实场景,限制查询次数(10-250次)。
评估:
- 攻击效果:在查询限制50次时,TREPAT在长文本(如HN新闻文章)上BODEGA评分0.2646,远超BERT-ATTACK(0.0732);人工评估显示TREPAT生成的对抗样本语义保留率达63.57%-75%(基线为25%-36.43%)。
- 模型鲁棒性:现代大模型(如GEMMA-7B)未必比BERT更抗攻击,风格转换提示(如非正式化)生成的对抗样本效果最佳。
成果:揭示假新闻检测模型的脆弱性,开源TREPAT代码与标注结果。
5. On the Role of Large Language Models in Crowdsourcing Misinformation Assessment → ICWSM 2024
Jiechen Xu et al., The University of Queensland
背景:众包评估假新闻可规模化,但易受主观偏差影响;LLM辅助众包的效果与风险未被系统研究。
研究对象:探究LLM(GPT-3.5)生成的标签与解释对众包工人评估假新闻的影响。
数据与模型:
- 数据:PolitiFact数据集的120条政治声明(平衡党派与真实性等级),众包工人来自Prolific平台(437人)。
- 方法:
- 实验设计:4种条件(基线:无LLM辅助;Label:仅LLM标签;Explanation:仅LLM解释;Label+Exp:两者皆有),评估工人判断质量、置信度、依赖度与行为。
- 测量指标:与专家标签的误差(ME_edit、MAE_edit)、Krippendorff’s α一致性、搜索查询次数、任务耗时。
评估:
- 判断偏差:接触LLM信息的工人更易高估假新闻真实性(Label组高估率38.06% vs 基线27.50%),因GPT-3.5本身存在高估倾向(ME_LLM_edit=0.5)。
- 依赖与行为:LLM辅助组与LLM标签一致性更高(Agreement Fraction 0.4+ vs 基线0.2-),搜索查询次数减少(基线平均3次 vs Label组1.5次),任务耗时缩短(基线平均150秒 vs Label组120秒)。
- 置信度:LLM辅助不显著影响工人自我报告的置信度,但Label+Exp组中,与专家一致的判断置信度更高(β=0.8425,p=0.009)。
成果:揭示LLM辅助众包的“双刃剑”效应,为设计LLM-人类协作评估框架提供依据,强调需平衡效率与偏差。
1. On the Role of Large Language Models in Crowdsourcing Misinformation Assessment → ICWSM 2024
Jiechen Xu et al., The University of Queensland, Australia
背景:专业事实核查人员规模有限,众包和LLMs虽被用于虚假信息评估,但LLMs存在输出缺陷,且LLMs对众包工作者判断的影响未被系统研究。
研究对象:探索众包工作者与LLMs协作评估政治类虚假信息的效果,聚焦LLMs对评估质量、工作者信心、依赖度及行为的影响。
数据与模型:
- 数据:从PolitiFact选取120条平衡两党立场与真实性等级的政治声明,GPT-3.5(text-davinci-003变体)生成真实性标签(0-5级)与解释,模型二分类准确率约0.68。
- 方法:采用2×2因子设计设4种实验条件(基线:无LLM输出;Label:仅LLM标签;Explanation:仅LLM解释;Label+Exp:标签+解释),从Prolific招募437名美国英语母语工作者,评估其判断与LLM输出、事实核查结果的关联。
评估: - 评估质量:接触LLM输出的工作者更易高估信息真实性(如Label组高估率38.06% vs 基线27.50%),且受LLM错误标签误导,但各组评估准确性与基线相近。
- 信心水平:LLM输出对工作者自我报告信心无显著影响,但Label+Exp组中,评估与事实核查结果一致性越高,信心越强。
- 依赖与信任:工作者对LLM存在明显依赖(Label/Label+Exp组与LLM标签一致性更高),但LLM输出形式(标签/解释)对信任度无显著影响,仅Explanation组中“首因效应”显著(首条LLM判断正确则信任度更高)。
- 行为指标:接触LLM的工作者使用搜索引擎次数更少(基线平均查询数最高)、任务耗时更短(Label组耗时显著少于基线)。
成果:揭示LLM辅助众包的“双刃剑”效应,提供LLM与人类协作评估虚假信息的实践参考,指出仅提供LLM解释或可缓解过度依赖。
2. Fake News in Sheep’s Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks → KDD 2024
Jiaying Wu et al., National University of Singapore & University of Chinese Academy of Sciences
背景:现有文本虚假新闻检测器依赖风格特征(如耸人听闻/客观语言),而LLMs可低成本模仿可信信源风格生成“伪装”假新闻,导致检测器性能大幅下降。
研究对象:提出风格鲁棒的虚假新闻检测器SheepDog,解决LLM驱动风格攻击下的检测脆弱性问题。
数据与模型:
- 数据:3个真实数据集(PolitiFact:450条、GossipCop:7916条、LUN:7500条),LLM(GPT-3.5)生成风格攻击样本(如假新闻模仿CNN风格,真新闻模仿《国家询问报》风格)。
- 方法:
- LLM驱动重构:生成“可靠风格”(客观专业、中立)与“不可靠风格”(情感煽动、耸人听闻)的新闻重构样本,注入训练风格多样性。
- 风格无关训练:通过风格对齐损失确保原文与重构样本的真实性预测一致,引导模型关注内容而非风格。
- 内容聚焦归因:LLM生成虚假信息特征归因(如“缺乏可信来源”“信息误导”),转化为伪标签辅助训练,提升可解释性。
评估:
- 抗风格攻击能力:在4种风格攻击测试集上,SheepDog F1分数显著优于基线(如LUN数据集上,SheepDog F1 85.63% vs 最佳基线66.34%),最高提升15.7%。
- 原始数据性能:在未扰动样本上,SheepDog性能与最佳基线相当或更优(如LUN数据集准确率提升显著)。
- 适应性:适配RoBERTa、BERT等LM backbone及GPT-3.5、LLaMA2-13B等LLM,均实现稳定性能提升; ablation实验表明,风格重构与内容归因对鲁棒性至关重要。
成果:提出首个针对LLM风格攻击的鲁棒检测框架,开源数据与代码,为动态风格场景下的虚假信息检测提供解决方案。
以下是对所有论文的总结,统一格式如下:
EvidenceRD: Preemptive Rumor Detection with Cooperative LLMs and Accessible Social Context → IPM 2025
Junyi Chen 等,University of Electronic Science and Technology of China
背景:现有谣言检测方法多为事后判断,缺乏事前预警能力,且难以利用传播前信息。
研究对象:提出一种基于多LLM协作与社交上下文的事前谣言检测框架 EvidenceRD。
数据与模型:
- 数据:Twitter15、Twitter16、Weibo21、PolitiFact、GossipCap 五个公开数据集。
- 方法:
- 证据挖掘:三大型号LLM(GPT-3.5、Claude-2、LLaMA-2)协作提取多视角证据,Final Arbiter 汇总。
- 社交上下文:基于作者可信度和社交同质性构建“作者可信度网络”,无需传播结构。
- 融合机制:交叉注意力机制融合证据与作者可信度表示。
评估:
- 性能:在仅使用传播前信息的前提下,EvidenceRD 在多个数据集上优于SOTA方法,F1 提升 3%–16%。
- 可解释性:自然语言证据增强人类判断,矛盾观点有助于识别混合真假信息。
- 效率:知识蒸馏版 EvidenceRD-D 降低计算与调用成本,适合实际部署。
成果:提出一种事前、可解释、可迁移、低成本的谣言检测新范式,代码与数据将开源。
ELKP: Enhancing LLMs for Rumor Detection with Knowledge-Powered Prompting → EAAI 2024
Yeqing Yan 等,National University of Defense Technology
背景:通用LLM在谣言检测中缺乏领域知识,提示策略简单,难以应对语义复杂的谣言。
研究对象:提出知识驱动的提示学习框架 ELKP,增强LLM对谣言的理解与判断能力。
数据与模型:
- 数据:Twitter15、Twitter16、PHEME 三个主流谣言检测数据集。
- 方法:
- 探索提示:基于实体识别构建“我们需要了解[实体]的哪些方面”等提示。
- 知识注入:从外部知识库(如Wikidata)提取实体相关知识,动态增强提示表示。
- 联合优化:同时优化提示填充(MLM)与分类目标,提升语义建模与判别能力。
评估:
- 性能:在三个数据集上均优于BERT、RDEA、GACL等强基线,F1 提升 1.6%–4.2%。
- 消融实验:去除知识注入或LLM模块后性能显著下降,验证各组件有效性。
- 迁移性:在跨域零样本设置下表现稳定,具备良好的泛化能力。
成果:提出一种知识增强、提示驱动、可解释的LLM应用范式,适用于小样本与跨域场景。
PROGRAMFC: Fact-Checking Complex Claims with Program-Guided Reasoning → ACL 2023
Liangming Pan 等,UC Santa Barbara & MBZUAI & NTU & NUS
背景:复杂事实声明需多步推理,现有方法缺乏可解释性,且依赖大量标注数据。
研究对象:提出程序引导的事实核查框架 PROGRAMFC,将复杂声明分解为可执行子任务。
数据与模型:
- 数据:HOVER(多跳推理)、FEVEROUS-S(句级证据)两个复杂事实核查数据集。
- 方法:
- 程序生成:使用 Codex 生成 Python 风格的推理程序(如 Question → Verify → Predict)。
- 程序执行:调用专用模块(QA、事实验证、逻辑推理)逐步执行,得出最终标签。
- 多路径聚合:生成多个程序并投票,提升鲁棒性。
评估:
- 性能:在少样本设置下,优于7个基线模型,F1 提升 4%–14%,尤其在4跳推理任务中表现突出。
- 可解释性:推理程序为人类提供清晰步骤,便于调试与信任。
- 鲁棒性:即使子模块较弱,程序结构仍能提升整体表现。
成果:提出一种可解释、数据高效、可扩展的复杂事实核查方法,适用于开放/闭卷场景。
Faking Fake News for Real Fake News Detection: Propaganda-Loaded Training Data Generation → ACL 2023
Kung-Hsiang Huang 等,UIUC & Columbia & MBZUAI & UW & AI2
背景:机器生成假新闻与人类编写的假新闻在风格与意图上差异大,导致检测器迁移性能差。
研究对象:提出模拟人类宣传策略的假新闻生成方法,构建训练数据集 PROPANEWS。
数据与模型:
- 数据:基于 TIMELINE17 与 CNN/DM 新闻,构建 2,256 篇假新闻(含宣传技巧)。
- 方法:
- 假信息生成:用 BART 替换关键句,结合 NLI 模型避免语义蕴含,确保“似真但假”。
- 宣传注入:自动插入“诉诸权威”与“情绪语言”两类宣传技巧,增强迷惑性。
- 人工验证:通过 Amazon MTurk 验证假句准确性,构建金标数据。
评估:
- 检测性能:在 POLITIFACT 与 SNOPES 人类假新闻数据集上,PROPANEWS 训练检测器 F1 提升 3.6%–7.7%。
- 生成质量:人类仅 54.8% 准确率识别生成假新闻,MAUVE 指标更接近人类假新闻分布。
- 宣传有效性:宣传技巧显著提升假新闻迷惑性与检测难度。
成果:发布首个含宣传技巧的假新闻生成数据集 PROPANEWS,推动人类假新闻检测研究。
CICAN: Rumor Detection with Crowd Intelligence and ChatGPT-Assisted Networks → EMNLP 2023
Chang Yang 等,Shenyang University of Technology & Tianjin University
背景:社交媒体谣言检测面临语义表达不足、知识引入困难、结构信息挖掘不充分等问题。
研究对象:提出融合群体智能与 ChatGPT 的谣言检测模型 CICAN,联合语义与结构信息。
数据与模型:
- 数据:Twitter15、Twitter16 两个主流谣言检测数据集。
- 方法:
- 语义模块(CIS):TweetBERT + BiLSTM + Capsule 网络,提取上下文与多层次语义特征。
- 结构模块(KSS):ChatGPT 提取实体与概念,构建实体-句子异构图,设计实体感知层次注意力融合元路径信息。
- 融合机制:级联语义与结构特征,输入 MLP 进行分类。
评估:
- 性能:在 Twitter15/16 上准确率分别达 85.5% 与 84.0%,优于 PPC、BiGCN、DDGCN 等SOTA方法。
- 早期检测:在仅30条评论时,准确率即达74%+,具备良好的早期预警能力。
- 消融实验:去除语义或结构模块后性能显著下降,验证两者互补性。
成果:首次将ChatGPT 作为知识增强工具引入谣言检测,提出群体智能驱动的语义-结构融合框架,代码与数据将开源。
以下是对每篇论文的简要总结,采用统一格式,涵盖研究背景、对象、数据与方法、评估与成果:
Fighting Fire with Fire: The Dual Role of LLMs in Crafting and Detecting Elusive Disinformation → EMNLP 2023
Jason Lucas et al., Penn State University & MIT Lincoln Lab
背景:大模型(LLM)既能生成极具欺骗性的虚假信息,也具备识别虚假内容的潜力,但其双重角色尚未被系统研究。
研究对象:探索LLM在生成与检测虚假信息中的能力,提出“以火攻火”(F3)策略。
数据与模型:
- 数据:CoAID、FakeNewsNet 等,构建包含人类与LLM生成内容的新数据集(F3)。
- 方法:
- 生成:使用角色扮演+扰动/改写提示,绕过对齐机制生成假新闻。
- 检测:设计多种零样本推理提示(如CoT、语义推理)进行虚假内容识别。
评估:
- 生成质量:38%生成内容存在幻觉,经PURIFY过滤后保留27K高质量样本。
- 检测性能:GPT-3.5在识别LLM生成内容方面优于人类撰写内容,Macro-F1达0.72。
成果:发布F3数据集与检测框架,强调LLM在虚假内容生成与检测中的双重潜力与风险。
Explainable Claim Verification via Knowledge-Grounded Reasoning with Large Language Models → EMNLP 2023
Haoran Wang & Kai Shu, Illinois Institute of Technology
背景:传统事实核查依赖人工标注证据,成本高,且缺乏可解释性。
研究对象:提出FOLK框架,利用一阶逻辑(FOL)引导LLM进行可解释的事实核查。
数据与模型:
- 数据:HoVER、FEVEROUS、SciFact-Open 等三类事实核查数据集。
- 方法:
- FOL引导分解:将声明转化为一组逻辑谓词,生成子问题。
- 知识 grounded 回答:通过搜索获取外部知识,避免幻觉。
- 推理与解释:基于谓词与回答进行逻辑推理并生成自然语言解释。
评估:
- 性能:在6/7任务中优于CoT、Self-Ask、ProgramFC等基线,提升达11.3%。
- 解释质量:人工评估显示FOLK在覆盖率、逻辑性与可读性上均优于基线。
成果:提出无需标注证据的可解释事实核查方法,推动LLM在事实核查中的理性应用。
Towards Robust Evidence-Aware Fake News Detection via Improving Semantic Perception → LREC 2024
Yike Wu et al., Nankai University
背景:现有虚假新闻检测模型对语义变化不敏感,易被恶意攻击。
研究对象:提出一种模型无关的训练框架,增强模型对声明语义的感知能力。
数据与模型:
- 数据:Snopes、PolitiFact,构建语义翻转(semantic-flipped)与语义不变(semantic-invariant)增强数据。
- 方法:
- 数据增强:通过否定、改写等方式生成语义相反或风格不同的声明。
- 语义敏感表示学习:引入对比学习,使模型更好地区分语义差异。
评估:
- 鲁棒性:在“hard”测试集上,F1提升最高达24.2%(BERT在Snopes-hard)。
- 泛化性:在原始测试集上仍保持竞争力,验证增强策略有效性。
成果:提出增强语义感知的通用训练框架,发布代码与增强数据集,推动鲁棒假新闻检测研究。
Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM → LREC 2024
Xuan Zhang & Wei Gao, Singapore Management University
背景:黑盒LLM难以反向传播优化检索模型,限制其在事实核查中的证据获取能力。
研究对象:提出FFRR框架,通过强化学习优化检索策略,以适配黑盒LLM。
数据与模型:
- 数据:RAWFC、LIAR-RAW,构建低泄露的新闻声明验证数据集。
- 方法:
- 两级奖励机制:基于LLM对文档与问题的反馈,构建文档级与问题级奖励。
- 策略优化:采用策略梯度训练检索器,提升证据质量。
评估:
- 性能:FFRR在F1上优于REPLUG、ReAct等基线,提升达7.9%。
- 分析:问题级奖励有助于发现多角度证据,文档级奖励提升检索准确性。
成果:首次将LLM细粒度反馈用于强化检索优化,提升黑盒LLM在事实核查中的表现。
Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method → IJCNLP 2023
Xuan Zhang & Wei Gao, Singapore Management University
背景:LLM在新闻事实核查中潜力巨大,但存在“遗漏关键信息”与“幻觉”问题。
研究对象:提出HiSS提示方法,引导LLM逐步分解并验证复杂声明。
数据与模型:
- 数据:RAWFC、LIAR,两个英文新闻事实核查数据集。
- 方法:
- 声明分解:将复杂声明拆分为多个子声明。
- 逐步验证:为每个子声明生成问题,结合搜索引擎回答进行验证。
评估:
- 性能:在few-shot设置下,HiSS优于全监督模型,F1提升4.95%。
- 解释性:生成更细致、易理解的推理过程,人工评估优于基线。
成果:提出一种高效、可解释的LLM事实核查方法,适用于新闻声明验证任务。
以下是你提供的三篇论文的简要总结:
FactLLaMA: Optimizing Instruction-Following Language Models with External Knowledge for Automated Fact-Checking → arXiv 2023
Tsun-Hin Cheung et al., The Hong Kong Polytechnic University
背景:大语言模型(LLM)在事实核查中因知识滞后或不足,可能导致判断错误。
研究对象:提出结合外部证据检索与指令微调(instruct-tuning)提升LLaMA在事实核查中的准确性。
数据与模型:
- 数据:RAWFC 和 LIAR 两个事实核查数据集。
- 方法:
- 使用搜索引擎(Google API)检索与声明相关的证据。
- 将证据与声明结合,构建“指令-证据-输入”样本。
- 使用 LORA 方法对 LLaMA-7B 进行指令微调。
评估:
- 性能:在 RAWFC 上 F1 分数达 0.5565,LIAR 上达 0.3044,均优于现有方法。
- 发现:外部知识显著提升模型判断准确性,尤其在对真假明确的声明上表现更好。
成果:开源模型与数据,推动基于外部知识的自动事实核查研究。
FakeGPT: Fake News Generation, Explanation and Detection via ChatGPT → arXiv 2024
Yue Huang et al., Notre Dame & IIT
背景:ChatGPT 生成虚假新闻的能力与风险未被系统研究。
研究对象:全面评估 ChatGPT 在生成、解释、检测虚假新闻中的表现。
数据与模型:
- 数据:9 个公开数据集(如 LIAR、COVID-19 假新闻)。
- 方法:
- 生成:设计 4 种规避过滤的提示策略(如“多重提示”)生成细节化假新闻。
- 解释:总结 9 类虚假特征(如“缺乏证据”“情感偏见”)。
- 检测:提出“原因感知提示”增强 ChatGPT 检测能力。
评估:
- 生成质量:人类仅 54.8% 准确率识别 ChatGPT 生成的假新闻。
- 检测性能:原因感知提示在 Kaggle 数据集上提升准确率 19.7%,但在 LIAR 等数据集上仍表现不佳。
成果:揭示 ChatGPT 的“双刃剑”特性,呼吁谨慎使用并公开数据集。
Bad Actor, Good Advisor: LLMs in Fake News Detection → AAAI 2024
Beizhe Hu et al., CAS & NUS
背景:大模型(LLM)在假新闻检测中表现不及微调小模型(SLM),但其分析能力或可互补。
研究对象:提出 LLM 作为“顾问”辅助 SLM 的框架(ARG 网络)。
数据与模型:
- 数据:中文 Weibo21 与英文 GossipCop 数据集。
- 方法:
- LLM 分析:GPT-3.5 生成多角度解释(如常识、文本风格)。
- ARG 网络:SLM(BERT)动态选择 LLM 生成的解释作为辅助特征。
- 蒸馏版 ARG-D:无需实时调用 LLM,降低成本。
评估:
- 性能:ARG 超越 BERT 基线 4.2%(中文)/3.2%(英文),ARG-D 保留 90% 性能。
- 发现:LLM 在事实性判断上不可靠,但其“文本风格”解释对检测贡献最大。
成果:开源双语文本解释数据集,推动 LLM-SLM 协同研究。
好的,我将按照您提供的格式对两篇论文进行总结。
Weakly Supervised Veracity Classification with LLM-Predicted Credibility Signals → arXiv 2024
João A. Leite et al., University of Sheffield
背景:自动验证在线内容真实性面临挑战,如需大量标注数据且难以跨领域泛化。
研究对象:提出Pastel方法,利用大型语言模型(LLM)预测的可信度信号进行弱监督真实性分类。
数据与模型:
- 数据:4个文章级数据集(PolitiFact、GossipCop、FakeNewsAMT、Celebrity)。
- 方法:
- 信号提取:LLM提取19种复杂可信度信号(如证据缺失、偏见、煽动性语言)。
- 弱监督:通过信号聚合生成二元真实性标签(虚假/非虚假)。
评估:
- 性能:Pastel在跨领域设置中显著优于监督学习模型,平均提升63%。
- 信号分析:12种信号与真实性有强关联,如证据缺失和煽动性语言。
成果:提供代码和数据,展示LLM在弱监督真实性分类中的潜力。
FakeGPT: Fake News Generation, Explanation and Detection via ChatGPT → arXiv 2024
Yue Huang et al., Notre Dame & IIT
背景:ChatGPT生成虚假新闻的潜在风险与检测能力未被系统研究。
研究对象:全面评估ChatGPT在生成、解释、检测虚假新闻中的表现。
数据与模型:
- 数据:9个公开数据集(如LIAR、COVID-19假新闻)。
- 方法:
- 生成:设计4种规避过滤的提示策略(如“多重提示”生成细节化假新闻)。
- 解释:总结9类虚假特征(如“缺乏证据”“情感偏见”)。
- 检测:提出“原因感知提示”增强ChatGPT检测能力。
评估:
- 生成质量:人类仅54.8%准确率识别ChatGPT生成的假新闻。
- 检测性能:原因感知提示将Kaggle数据集准确率提升19.7%,但LIAR等数据集仍表现不佳。
成果:揭示ChatGPT的“双刃剑”特性,呼吁谨慎使用并公开数据集。
以下是两篇论文的总结:
《Evidence-based Interpretable Open-domain Fact-checking with Large Language Models》
作者:Tan Xin, Zou Bowei, Aw Ai Ti(Institute for Infocomm Research (I2R), A*STAR)
背景:现实世界中的虚假信息泛滥,自动事实核查任务在自然语言处理(NLP)领域的重要性日益凸显。然而,现有的事实核查系统在收集实时证据和做出合理决策方面面临挑战,尤其是在开放领域场景中。
研究对象:提出一个名为Open-domain Explainable Fact-checking(OE-Fact)的系统,用于开放领域的事实核查,能够利用大型语言模型(LLM)的强大理解和推理能力,验证声明并生成因果解释。
数据与模型:
- 数据:使用Fact Extraction and Verification(FEVER)数据集进行评估,该数据集包含从2017年维基百科中构建的声明。
- 方法:
- 证据检索:通过Google Custom Search Engine API从开放网站检索与声明相关的证据,采用双重查询策略,包括直接提交用户输入的声明和提取关键词作为查询。
- 证据选择:利用LLM(Llama)和语义相似性计算筛选与声明最相关的证据。
- 判决生成:基于保留的声明相关证据,利用LLM生成预测标签和实时决策解释。
评估:
- 性能指标:使用准确率(Acc)、精确率(P)、召回率(R)和F1分数评估系统性能。
- 结果:OE-Fact系统在封闭域和开放域场景中均优于基线系统,准确率分别达到49.75%和54.20%,显示出在开放领域事实核查中的有效性。
成果:
- 提出了OE-Fact系统,填补了开放领域真实世界声明核查的空白。
- 实验证明了LLM在事实核查中生成稳定准确判断的有效性。
- 生成的实时事实核查决策解释保证了判决的透明性,增强了解释的整体连贯性。
《Language Models Hallucinate, but May Excel at Fact Verification》
作者:Jian Guan, Jesse Dodge, David Wadden, Minlie Huang, Hao Peng(清华大学、Allen Institute for AI、伊利诺伊大学厄巴纳-香槟分校)
背景:大型语言模型(LLM)在自然语言生成任务中表现出色,但存在“幻觉”问题,即生成非事实内容。这引发了对LLM事实核查能力的探索需求。
研究对象:系统研究LLM在事实核查任务中的潜力,探讨其作为事实核查器的有效性,并分析其对证据的依赖、鲁棒性和泛化能力。
数据与模型:
- 数据:设计了三个评估集,包括模型生成的声明(MGS)、维基百科领域的声明(WKS)和特定领域的声明(DSS)。
- 方法:
- 事实核查:给定声明和证据,通过LLM生成判断声明真实性的概率。
- 证据影响分析:评估不同类型证据对LLM核查性能的影响。
- 鲁棒性与泛化能力分析:通过改变提示和评估不同模型生成的声明来测试LLM的鲁棒性和泛化能力。
评估:
- 性能指标:使用预期校准误差(ECE)、准确率(ACC)、ROC曲线下面积(AUR)和皮尔逊相关系数(r)等指标评估事实核查器。
- 结果:
- 在WKS中,FLAN-T511B在使用检索证据时表现最佳,优于GPT-3.5和ChatGPT。
- 在DSS中,FLAN-T511B在多数指标上超越ChatGPT。
- 在MGS中,FLAN-T511B在句子级别和段落级别上均展现出较好的性能。
成果:
- 通过人类评估量化了LLM的幻觉问题,强调了开发有效事实核查方法的紧迫性。
- 证明了LLM可以被重新利用作为有效的事实核查器,并且在某些情况下优于人类判断。
- 提出了基于LLM的事实核查实践建议,如最小化无关证据、将句子作为段落验证的基本单位等。
TELLER: A Trustworthy Framework For Explainable, Generalizable and Controllable Fake News Detection → arXiv 2024
Hui Liu et al., City University of Hong Kong & Nanyang Technological University & University of Electronic Science and Technology of China
背景:现有基于深度学习的假新闻检测方法存在不可解释性、泛化能力差以及与大语言模型(LLM)集成时的风险。
研究对象:提出TELLER框架,旨在提升假新闻检测的可解释性、泛化能力和可控性。
数据与模型:
- 数据:使用LIAR、Constraint、PolitiFact和GossipCop四个数据集。
- 方法:
- 认知系统:利用人类专业知识生成逻辑谓词,指导LLM生成可读逻辑原子。
- 决策系统:通过神经符号模型(DNF层)学习通用逻辑规则,聚合逻辑原子以判断新闻真实性。
评估:
- 性能:在四个数据集上,TELLER在准确性、宏F1分数上均优于多种基线模型,展现出良好的泛化能力。
- 可解释性:通过可视化规则,TELLER能够提供清晰的决策逻辑。
- 可控性:支持人工干预,可调整逻辑规则以适应特定需求。
成果:提出一个系统性的框架,综合考虑假新闻检测的三个关键原则,为未来研究提供方向。
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection → arXiv 2024
Herun Wan et al., Xi'an Jiaotong University & University of Washington & University of Notre Dame
背景:大语言模型(LLM)在直接用于判断新闻真实性时面临事实性和幻觉问题。
研究对象:提出DELL框架,通过三个阶段整合LLM以提高假新闻检测性能。
数据与模型:
- 数据:使用7个数据集(包括Pheme、LLM-mis、MFC等)进行实验。
- 方法:
- 多样化反应生成:LLM生成多视角的新闻反应,模拟用户-新闻互动网络。
- 可解释的代理任务:LLM为代理任务(如情感、立场)生成解释,丰富新闻上下文。
- LLM基础专家集成:LLM整合不同专家的预测和置信度,提供总体预测。
评估:
- 性能:DELL在所有数据集上均优于最强基线模型,最大提升16.8%的宏F1分数。
- 分析:生成的反应和解释对检测性能贡献显著,LLM引导的专家合并提高了预测校准度。
成果:通过实验验证了LLM在假新闻检测中的潜力,尤其是在生成多样化反应和解释方面。
LEMMA: LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation → arXiv 2024
Keyang Xuan et al., University of Illinois Urbana-Champaign
背景:多模态虚假信息在社交媒体上的传播对个人和社会构成威胁,其检测需要跨多种媒体类型进行推理,并结合深入的知识进行准确验证。
研究对象:提出LEMMA框架,利用大型视觉语言模型(LVLM)的直觉和推理能力,并通过外部知识增强来提高虚假信息检测的准确性。
数据与模型:
- 数据:使用Twitter和Fakeddit数据集进行评估。
- 方法:
- 初始阶段推理:LVLM根据新闻内容和评论的初始预测评估是否需要外部知识。
- 多模态检索:结合文本和图像检索,生成多方面查询以检索相关信息。
- 资源蒸馏:通过粗到细的蒸馏方法提取关键信息。
- 精炼预测:结合检索到的证据重新评估新闻的真实性。
评估:
- 性能:LEMMA在Twitter和Fakeddit数据集上分别比顶级LVLM基线提高了9%和13%的准确率。
- 分析:LEMMA在保留LVLM固有能力的同时,通过外部知识显著提升了推理性能。
成果:证明了LVLM在多模态虚假信息检测中的潜力,并展示了外部知识增强的有效性。
LeRuD: LLM-Empowered Rumor Detection on Social Media → arXiv 2024
Qiang Liu et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:社交媒体上的谣言传播对社会构成威胁,而大语言模型(LLM)在处理社交媒体上的复杂传播信息时面临挑战。
研究对象:提出LeRuD方法,通过设计提示和将传播信息分解为传播链来提高LLM在谣言检测中的推理能力。
数据与模型:
- 数据:使用Twitter和Weibo数据集进行评估。
- 方法:
- 理性提示(RP):引导LLM关注新闻的写作风格和常识错误。
- 冲突提示(CP):引导LLM分析评论中的反驳或冲突。
- 传播链(CoP):将传播信息分解为时间顺序的传播链,使LLM能够逐步推理。
评估:
- 性能:LeRuD在零样本设置中优于多个最先进的谣言检测模型,分别在Twitter和Weibo数据集上提高了3.2%和7.7%的准确率。
- 分析:LeRuD通过关注关键线索和逐步推理,显著提高了LLM在谣言检测中的性能。
成果:证明了LLM在社交媒体谣言检测中的潜力,并提出了一种有效的推理框架。
好的,我将按照您提供的格式对每篇论文进行总结。
MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation → arXiv 2024
Longzheng Wang et al., CAS & UCAS
背景:多模态虚假信息检测的重要性日益凸显,但大型语言模型(LLM)在该领域的潜力尚未被充分挖掘。
研究对象:提出MMIDR框架,教授LLM解释多模态虚假信息。
数据与模型:
- 数据:基于MR2数据集构建多模态检索增强型谣言检测数据集(MR2llm)。
- 方法:
- 数据增强:将图像文本对转换为适合指令跟随的格式,包括OCR、图像描述和证据检索。
- 解释提取:利用教师LLM(如ChatGPT)生成解释虚假信息真实性的理由。
- 知识蒸馏:将教师LLM的能力蒸馏到开源LLM(如LLaMA、MiniGPT-v2)中,通过LoRA技术微调。
评估:
- 性能:MMIDR在检测性能上表现良好,准确率达到93.63%,并能提供有说服力的解释。
- 对比:与BERT+ResNet等基线模型相比,MMIDR在多模态虚假信息检测任务上表现出色。
成果:首次探索LLM在多模态虚假信息检测中的应用,提出数据增强和知识蒸馏方法,为开源LLM生成高质量解释提供了新途径。
Can Large Language Models Detect Misinformation in Scientific News Reporting? → arXiv 2024
Yupeng Cao et al., Stevens Institute of Technology & Peraton Labs
背景:科学新闻中的虚假信息对公众有重大风险,但自动检测仍处于起步阶段。
研究对象:探索LLM在科学新闻报道中检测虚假信息的能力。
数据与模型:
- 数据:构建SciNews数据集,包含2400篇科学新闻文章,来源可靠和不可靠,配对CORD-19数据库中的相关摘要。
- 方法:
- 架构:提出三种基于LLM的架构(SERIf、SIf、D2I),分别包含不同模块(总结、证据检索、推理)。
- 提示策略:零样本、少样本和链式思考提示策略。
评估:
- 性能:SIf架构在检测人类撰写的虚假信息上表现最佳,准确率达到82.50%。
- 发现:LLM生成的虚假信息比人类撰写的更难检测,链式思考提示策略在解释生成上效果显著。
成果:定义了科学新闻有效性的维度,提出多种LLM架构,为科学新闻虚假信息检测提供了新方法。
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection → arXiv 2024
Peng Qi et al., National University of Singapore
背景:上下文外(OOC)虚假信息通过将真实图像重新用于虚假文本,误导性强且难以检测。
研究对象:提出SNIFFER模型,专门用于检测和解释OOC虚假信息。
数据与模型:
- 数据:使用NewsCLIPpings数据集,包含新闻图像-标题对。
- 方法:
- 两阶段指令调整:第一阶段对InstructBLIP进行新闻领域对齐,第二阶段利用语言GPT-4生成OOC特定指令数据进行微调。
- 推理过程:结合内部检查(图像-文本一致性)和外部检查(检索到的图像上下文与文本的相关性)。
评估:
- 性能:SNIFFER在检测准确率上超过原始MLLM 40%以上,达到88.4%。
- 解释能力:通过定量和人类评估验证,SNIFFER能生成准确且有说服力的解释。
成果:提出多视角指令数据构建方法,通过指令调整和外部知识增强,使SNIFFER在OOC虚假信息检测和解释生成上表现出色。
Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors → arXiv 2024
Guanghua Li et al., Shenzhen University & USTC & IIT
背景:虚假新闻的泛滥对社会产生深远影响,传统检测方法依赖于静态数据源,存在局限性。
研究对象:提出STEEL框架,利用多轮检索增强LLM进行虚假新闻检测。
数据与模型:
- 数据:使用LIAR、PolitiFact和CHEF三个真实世界数据集。
- 方法:
- 多轮检索:当初始证据不足时,利用LLM生成针对性查询,进行多轮检索。
- 推理模块:将检索到的证据输入LLM,输出“真实”、“虚假”或“信息不足”三种情况。
评估:
- 性能:STEEL在三个数据集上均优于现有方法,F1-macro和F1-micro指标提升超过5%。
- 发现:多轮检索显著提高了证据质量和检测准确性。
成果:提出首个基于互联网战略检索的LLM虚假新闻检测框架,提供开源实现,为零样本或少样本学习场景提供解决方案。
好的,我将按照您提供的格式对每篇论文进行总结。
MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation → arXiv 2024
Longzheng Wang et al., CAS & UCAS
背景:多模态虚假信息检测的重要性日益凸显,但大型语言模型(LLM)在该领域的潜力尚未被充分挖掘。
研究对象:提出MMIDR框架,教授LLM解释多模态虚假信息。
数据与模型:
- 数据:基于MR2数据集构建多模态检索增强型谣言检测数据集(MR2llm)。
- 方法:
- 数据增强:将图像文本对转换为适合指令跟随的格式,包括OCR、图像描述和证据检索。
- 解释提取:利用教师LLM(如ChatGPT)生成解释虚假信息真实性的理由。
- 知识蒸馏:将教师LLM的能力蒸馏到开源LLM(如LLaMA、MiniGPT-v2)中,通过LoRA技术微调。
评估:
- 性能:MMIDR在检测性能上表现良好,准确率达到93.63%,并能提供有说服力的解释。
- 对比:与BERT+ResNet等基线模型相比,MMIDR在多模态虚假信息检测任务上表现出色。
成果:首次探索LLM在多模态虚假信息检测中的应用,提出数据增强和知识蒸馏方法,为开源LLM生成高质量解释提供了新途径。
Can Large Language Models Detect Misinformation in Scientific News Reporting? → arXiv 2024
Yupeng Cao et al., Stevens Institute of Technology & Peraton Labs
背景:科学新闻中的虚假信息对公众有重大风险,但自动检测仍处于起步阶段。
研究对象:探索LLM在科学新闻报道中检测虚假信息的能力。
数据与模型:
- 数据:构建SciNews数据集,包含2400篇科学新闻文章,来源可靠和不可靠,配对CORD-19数据库中的相关摘要。
- 方法:
- 架构:提出三种基于LLM的架构(SERIf、SIf、D2I),分别包含不同模块(总结、证据检索、推理)。
- 提示策略:零样本、少样本和链式思考提示策略。
评估:
- 性能:SIf架构在检测人类撰写的虚假信息上表现最佳,准确率达到82.50%。
- 发现:LLM生成的虚假信息比人类撰写的更难检测,链式思考提示策略在解释生成上效果显著。
成果:定义了科学新闻有效性的维度,提出多种LLM架构,为科学新闻虚假信息检测提供了新方法。
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection → arXiv 2024
Peng Qi et al., National University of Singapore
背景:上下文外(OOC)虚假信息通过将真实图像重新用于虚假文本,误导性强且难以检测。
研究对象:提出SNIFFER模型,专门用于检测和解释OOC虚假信息。
数据与模型:
- 数据:使用NewsCLIPpings数据集,包含新闻图像-标题对。
- 方法:
- 两阶段指令调整:第一阶段对InstructBLIP进行新闻领域对齐,第二阶段利用语言GPT-4生成OOC特定指令数据进行微调。
- 推理过程:结合内部检查(图像-文本一致性)和外部检查(检索到的图像上下文与文本的相关性)。
评估:
- 性能:SNIFFER在检测准确率上超过原始MLLM 40%以上,达到88.4%。
- 解释能力:通过定量和人类评估验证,SNIFFER能生成准确且有说服力的解释。
成果:提出多视角指令数据构建方法,通过指令调整和外部知识增强,使SNIFFER在OOC虚假信息检测和解释生成上表现出色。
Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors → arXiv 2024
Guanghua Li et al., Shenzhen University & USTC & IIT
背景:虚假新闻的泛滥对社会产生深远影响,传统检测方法依赖于静态数据源,存在局限性。
研究对象:提出STEEL框架,利用多轮检索增强LLM进行虚假新闻检测。
数据与模型:
- 数据:使用LIAR、PolitiFact和CHEF三个真实世界数据集。
- 方法:
- 多轮检索:当初始证据不足时,利用LLM生成针对性查询,进行多轮检索。
- 推理模块:将检索到的证据输入LLM,输出“真实”、“虚假”或“信息不足”三种情况。
评估:
- 性能:STEEL在三个数据集上均优于现有方法,F1-macro和F1-micro指标提升超过5%。
- 发现:多轮检索显著提高了证据质量和检测准确性。
成果:提出首个基于互联网战略检索的LLM虚假新闻检测框架,提供开源实现,为零样本或少样本学习场景提供解决方案。
好的,以下是按照你提供的格式对三篇论文的总结:
1. Let Silence Speak: Enhancing Fake News Detection with Generated Comments from Large Language Models → arXiv 2024
Qiong Nan et al., CAS & UCAS
背景:社交媒体上的虚假新闻传播迅速,对用户和社会新闻生态造成损害。基于评论的虚假新闻检测方法有潜力,但现实中获取多样化评论困难,尤其是在早期检测场景中。
研究对象:提出利用大型语言模型(LLM)作为用户模拟器和评论生成器,设计生成反馈增强检测框架(GenFEND),通过角色扮演不同用户生成多样化评论,增强虚假新闻检测性能。
数据与模型:
- 数据:Weibo21、GossipCop和LLM-mis三个公共数据集。
- 方法:
- 多视图评论生成:结合性别、年龄和教育三个用户属性,定义30种用户画像,通过提示LLM生成多样化评论。
- 多子群体反馈理解:将生成的评论按视图分为不同子群体,提取每个子群体的语义特征和多样性表示。
- 聚合与分类:进行视图内和视图间聚合,将生成评论的特征与新闻内容特征结合,用于分类。
评估:
- 性能提升:GenFEND在内容仅方法和基于评论的方法上均显著提升检测性能,尤其在F1-fake指标上提升更明显。
- 架构有效性:去除任何视图或聚合模块都会导致性能下降,证明多视图和聚合的重要性。
- 评论有效性:生成的评论比实际评论更有效,尤其是来自“沉默”用户的评论,且生成评论对用户属性的符合度高。
成果:证明了LLM生成评论作为替代数据源的有效性,为早期虚假新闻检测提供了新思路,代码已开源。
2. Large Language Model Agent for Fake News Detection → arXiv 2024
Xinyi Li et al., Northwestern University & Rutgers University
背景:在线平台上虚假信息的快速传播对社会福祉、公共信任和民主进程构成挑战,需要自动化的虚假新闻检测机制。预训练的大型语言模型(LLM)在自然语言处理任务中表现出色,但其在虚假新闻检测中的应用仍需探索。
研究对象:提出FactAgent,一种利用LLM进行虚假新闻检测的代理方法,通过结构化工作流程模拟人类专家行为,无需模型训练即可验证新闻的真实性。
数据与模型:
- 数据:Snopes、PolitiFact和GossipCop三个真实世界数据集。
- 方法:
- 工具设计:将工具分为仅使用LLM内部知识(如语言风格、常识)和结合外部知识(如搜索工具、URL工具)两类。
- 结构化工作流程:将新闻真实性检查分解为多个子步骤,LLM在每个步骤中使用工具收集证据,最终整合所有发现以确定新闻的真实性。
- 解释与决策:FactAgent在每个步骤和最终决策中提供透明的解释,增强用户对检测过程的理解。
评估:
- 性能对比:FactAgent在所有数据集上的表现优于其他基线方法,包括LSTM、TextCNN、BERT等。
- 领域知识重要性:基于领域知识设计的专家工作流程比LLM自动生成的工作流程表现更好。
- 外部搜索引擎的影响:外部搜索工具对FactAgent的性能有显著影响,仅依赖LLM内部知识是不够的。
成果:FactAgent展示了LLM在无训练情况下的虚假新闻检测能力,强调了领域知识在设计工作流程中的重要性,并提供了可解释的检测过程。
3. Argumentative Large Language Models for Explainable and Contestable Claim Verification → arXiv 2025
Gabriel Freedman et al., Imperial College London
背景:大型语言模型(LLM)在决策支持中具有潜力,但目前缺乏可解释性和可争议性,即无法提供忠实于其“推理”过程的解释,也无法通过外部干预可靠地纠正模型的推理步骤。
研究对象:提出论证性LLM(ArgLLMs),通过构建论证框架并在此基础上进行形式化推理,增强LLM的可解释性和可争议性,应用于声明验证任务。
数据与模型:
- 数据:从TruthfulQA、StrategyQA和MedQA三个现有问答数据集改编的声明验证数据集。
- 方法:
- 论证生成:使用LLM生成支持和反对声明的论证,构建二元论证框架(BAF)。
- 内在论证强度归因:利用LLM评估论证的内在强度,为BAF添加基础分数,转化为量化二元论证框架(QBAF)。
- 论证强度计算:应用逐步语义学(如DF-QuAD)解析QBAF中的冲突,得出对声明的评估。
评估:
- 性能对比:ArgLLMs在声明验证任务上的表现与现有技术相当,但提供了忠实的解释和可争议性。
- 可争议性特性:正式定义了可争议性属性,并通过实验验证了ArgLLMs在这些属性上的表现。
成果:ArgLLMs在不牺牲预测准确性的情况下,为LLM的决策提供了可解释性和可争议性,为复杂决策任务提供了新的解决方案。
以下是根据您提供的格式对每篇论文的总结:
Adversarial Style Augmentation via Large Language Model for Robust Fake News Detection → WWW 2025
Sungwon Park et al., KAIST & MPI-SP
背景:虚假新闻的传播对个人和社会造成危害,现有算法和特征易被风格转换攻击绕过,使真实新闻与AI生成新闻难以区分。
研究对象:提出一种对抗式风格增强方法(AdStyle),通过LLM自动生成风格转换攻击提示,训练鲁棒的假新闻检测器。
数据与模型:
- 数据:PolitiFact、GossipCop和Constraint三个基准数据集。
- 方法:
- 对抗式风格转换提示:利用LLM自动生成多样化的风格转换提示,增加检测器决策边界的噪声,同时保留内容一致性。
- 提示选择策略:基于对抗性、一致性和多样性三个标准选择最佳提示,用于训练检测模型。
评估:
- 性能:在PolitiFact、GossipCop和Constraint数据集上,AdStyle在多种风格转换攻击场景下显著提升了检测器的鲁棒性和检测性能,与现有最佳方法相比,AUC值分别提升了0.12、0.15和0.17。
成果:开源代码和实现细节,为研究社区和行业提供支持,增强假新闻检测的鲁棒性。
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection → WWW 2025
Ye Liu et al., USTC & HKUST
背景:假新闻在社交媒体上的广泛传播对社会造成严重影响,现有方法在低资源场景下表现受限,如对新闻含义理解不足和信息稀缺。
研究对象:提出一种双视角知识引导的假新闻检测模型(DKFND),从内部和外部视角增强LLM的检测能力。
数据与模型:
- 数据:PolitiFact和GossipCop两个公开数据集。
- 方法:
- 检测模块:通过知识图谱识别新闻中的关键知识概念。
- 调查模块:从训练集内部和外部(搜索引擎)检索有价值信息。
- 判断模块:评估检索信息的相关性和真实性。
- 决策模块:综合内外部预测结果,得出最终判断。
评估:
- 性能:在PolitiFact和GossipCop数据集上,DKFND在干净和攻击场景下均优于现有方法,准确率分别达到89.00%和85.33%。
成果:提出一种有效的双视角知识引导框架,显著提升低资源场景下的假新闻检测性能。
Multimodal Misinformation Detection using Large Vision-Language Models → arXiv 2024
Sahar Tahmasebi et al., TIB & L3S Research Center
背景:虚假信息的传播对社会造成严重影响,现有方法在多模态虚假信息检测方面存在局限性,如忽略多模态特征或假设证据已提供。
研究对象:提出一种基于LLM和LVLM的多模态虚假信息检测方法,包含证据检索和事实验证两个阶段。
数据与模型:
- 数据:MOCHEG和Factify两个基准数据集。
- 方法:
- 证据检索:利用LLM和LVLM对文本和图像证据进行重排序,提高检索精度。
- 事实验证:基于检索到的证据,使用LVLM进行多模态事实验证。
评估:
- 性能:在MOCHEG和Factify数据集上,该方法在证据检索和事实验证任务上均优于现有方法,准确率分别提升了10.96%和5.57%。
成果:提出一种零样本多模态虚假信息检测方法,具有更好的泛化能力。
Dynamic Analysis and Adaptive Discriminator for Fake News Detection → arXiv 2025
Xinqi Su et al., Great Bay University & Tianjin University
背景:现有基于知识和语义的假新闻检测方法依赖人类专业知识和反馈,缺乏灵活性。
研究对象:提出一种动态分析和自适应判别器(DAAD)方法,通过优化LLM提示和设计多种判别器来检测假新闻。
数据与模型:
- 数据:Weibo、Weibo-21和GossipCop三个真实世界数据集。
- 方法:
- 提示优化:利用蒙特卡洛树搜索(MCTS)算法优化LLM提示,引入MemoryBank避免局部最优。
- 自适应判别器:设计四种判别器(ReLU、频率域、逻辑和语义判别器),通过软路由机制动态选择最优检测模型。
评估:
- 性能:在Weibo、Weibo-21和GossipCop数据集上,DAAD的准确率分别达到93.2%、94.2%和90.4%,优于现有方法。
成果:提出一种灵活的假新闻检测方法,通过动态分析和自适应判别器显著提升检测性能。
RAEmoLLM: Retrieval Augmented LLMs for Cross-Domain Misinformation Detection Using In-Context Learning Based on Emotional Information → arXiv 2025
Zhiwei Liu et al., The University of Manchester & Wuhan University
背景:虚假信息在多个领域广泛存在,现有跨领域检测方法依赖于费力的微调和复杂模型结构,且未充分利用情感和情绪特征。
研究对象:提出RAEmoLLM框架,通过基于情感信息的上下文学习进行跨领域虚假信息检测。
数据与模型:
- 数据:AMTCele、PHEME和COCO三个基准数据集。
- 方法:
- 索引构建模块:利用情感LLM获取情感嵌入构建检索数据库。
- 检索模块:根据目标领域内容从源领域数据中检索情感相关示例。
- 推理模块:将检索到的示例作为少样本演示,指导LLM进行目标领域内容的推理。
评估:
- 性能:在AMTCele、PHEME和COCO数据集上,RAEmoLLM显著优于其他少样本方法,最高提升31.18%。
成果:提出一种无需微调的跨领域虚假信息检测框架,通过情感信息显著提升LLM的检测能力。
以下是按照你提供的格式对每篇论文的总结:
Real-time Factuality Assessment from Adversarial Feedback → arXiv 2025
Sanxing Chen et al., Duke University
背景:现有评估新闻真实性(factuality)的方法存在局限性,如依赖过时的预训练数据、对新事件的检测能力不足。
研究对象:开发一种新的实时评估方法,通过对抗式反馈生成更具欺骗性的假新闻,以测试模型对当前事件的推理能力。
数据与模型:
- 数据:从NBC News获取431篇新闻,覆盖政治、商业、体育等多领域。
- 方法:
- 迭代重写:利用RAG(Retrieval-Augmented Generation)模型的反馈,迭代修改真实新闻为假新闻。
- 对抗生成:通过多轮迭代,使生成的假新闻逐渐绕过检测器的检测。
评估:
- 检测性能:迭代过程使RAG检测器的AUC-ROC分数降低了17.5%,表明生成的假新闻更具欺骗性。
- 跨模型泛化:该方法生成的假新闻对不同LLM和检索源均具有更强的欺骗性。
成果:提出一种新的对抗式假新闻生成方法,揭示了RAG在生成和检测假新闻中的重要作用,强调了实时事件推理的重要性,并开源了相关代码和数据。
RAGAR, Your Falsehood Radar: RAG-Augmented Reasoning for Political Fact-Checking using Multimodal Large Language Models → ACL submission
Anonymous
背景:政治领域的虚假信息问题日益严重,尤其是多模态(文本和图像)虚假信息的传播,需要更先进的事实核查解决方案。
研究对象:提出一种基于多模态大语言模型(LLM)和检索增强生成(RAG)的新型事实核查方法,包含两种推理技术:Chain of RAG(CoRAG)和Tree of RAG(ToRAG)。
数据与模型:
- 数据:从MOCHEG数据集中筛选出300个政治相关的多模态声明,包含文本和图像。
- 方法:
- 多模态声明生成:使用GPT-4V将文本和图像信息整合为新的声明。
- 证据检索:通过DuckDuckGo和SerpAPI检索相关文本和图像信息。
- 推理技术:CoRAG通过连续提问逐步验证声明;ToRAG则通过分支提问和证据筛选增强验证。
评估:
- 准确性:ToRAG+CoTVP+CoVe方法在加权F1分数上达到0.85,比基线方法高出0.14。
- 解释质量:人类评估显示,生成的解释大多包含所有关键信息,与标准数据一致。
成果:证明了RAG增强推理技术在多模态政治事实核查中的有效性,提高了验证准确性和解释质量。
Zero-Shot Fact Verification via Natural Logic and Large Language Models → ACL submission
Anonymous
背景:现有的基于自然逻辑的事实验证系统需要大量标注数据,限制了其应用范围。
研究对象:提出一种零样本事实验证方法(Zero-NatVer),利用指令调整的大语言模型(LLM)进行自然逻辑证明的生成,无需特定领域的训练数据。
数据与模型:
- 数据:评估包括人工和真实世界声明的数据集,涵盖丹麦语和普通话。
- 方法:
- 声明分块与对齐:将声明分解为小块,并与证据文本对齐。
- 自然逻辑操作符分配:通过问题回答框架为每对声明-证据分配自然逻辑操作符。
- 有限状态自动机(DFA)验证:利用DFA执行证明,确定声明的真实性。
评估:
- 零样本泛化:Zero-NatVer在所有数据集上的平均准确率比最佳基线高出8.61个百分点。
- 零样本迁移:在真实世界声明的数据集上,Zero-NatVer表现优于基于自然逻辑训练的系统。
成果:展示了自然逻辑在零样本事实验证中的潜力,提供了解释性的同时提高了性能。
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs → arXiv 2024
Ronit Singhal et al., IIT Kharagpur & Stanford University
背景:社交媒体上的虚假信息传播问题严重,需要自动化的事实核查系统来应对。
研究对象:开发一种基于RAG和少样本上下文学习(ICL)的自动化事实核查系统,提供证据支持的验证结果。
数据与模型:
- 数据:使用Averitec数据集,包含带有知识库的声明。
- 方法:
- 文档检索:使用密集嵌入和FAISS检索与声明最相关的文档。
- 证据提取:通过LLM生成问题并从文档中提取答案作为证据。
- 最终分类:利用LLM进行少样本上下文学习,对声明进行分类。
评估:
- 性能提升:系统在Averitec数据集上的表现比官方基线高出22%。
- 类别表现:在“支持”和“反驳”类别上表现较好,但在“证据冲突/选择性摘取”和“证据不足”类别上存在挑战。
成果:提出了一种有效的自动化事实核查方法,强调了少样本学习和RAG在事实核查中的应用潜力。
文件 1:Message Injection Attack on Rumor Detection under the Black-Box Evasion Setting Using Large Language Model
Yifeng Luo et al., Hong Kong Baptist University & The University of Hong Kong
背景:现有的谣言检测技术在对抗性攻击下存在漏洞,尤其是依赖于白盒或代理模型的攻击。这些攻击假设可修改用户数据或访问谣言检测模型的白盒信息,实际中不现实。因此,研究谣言检测器在黑盒攻击下的鲁棒性至关重要。
研究对象:提出一种新的黑盒攻击方法HMIA-LLM,利用大型语言模型(LLM)生成恶意消息并注入谣言传播树(MPT),以降低谣言检测器的性能。
数据与模型:
- 数据:使用Twitter15、Twitter16和Pheme三个数据集。
- 方法:
- 攻击方法:HMIA-LLM通过迭代提示生成恶意消息,利用LLM生成与原始消息语义差异较大的内容,注入到MPT中。
- 目标:通过破坏MPT的同质性分布来降低谣言检测器的性能。
- 实验:在三个数据集上评估HMIA-LLM的攻击效果,与四种目标谣言检测器和三种基线方法进行比较。
评估:
- 攻击成功率(ASR):HMIA-LLM在六个实验组中五个达到最佳或次佳,ASR显著高于其他方法。
- 准确率(ACC):HMIA-LLM在七个实验组中五个达到最佳或次佳,显著降低谣言检测器的准确率。
成果:首次在黑盒设置下研究基于LLM的消息注入攻击,揭示了LLM在生成恶意消息方面的潜力,为提高谣言检测器的鲁棒性提供了新的视角。
文件 2:LLM-Enhanced Multiple Instance Learning for Joint Rumor and Stance Detection with Social Context Information
Ruichao Yang et al., Hong Kong Baptist University & Singapore Management University
背景:社交媒体上的谣言传播引发了用户的各种立场表达,这些立场信号对谣言检测有帮助。然而,现有的立场检测方法通常需要帖子级别的立场标注,成本高昂。此外,谣言和立场检测通常是独立任务,但它们可以相互补充。
研究对象:提出一种基于LLM增强的多实例学习(MIL)方法,联合预测帖子立场和谣言类别,仅使用谣言声明的真实性标签进行监督。
数据与模型:
- 数据:使用Twitter15、Twitter16、Pheme、RumorEval2019-S和SemEval2019五个数据集。
- 方法:
- MIL框架:将多类问题转化为多个二元分类问题,通过判别性注意力层聚合分类器输出。
- LLM增强:利用LLM生成帖子立场的解释,增强帖子表示,克服传播方向限制。
- 层次化注意力机制:结合局部和全局注意力,聚合二元分类器的输出。
评估:
- 立场检测:在Twitter和Weibo数据集上,LLM-MIL在微平均和宏平均F1分数上均优于基线方法。
- 谣言检测:在Twitter和Weibo数据集上,LLM-MIL在准确率、精确率、召回率和F1分数上均优于基线方法。
成果:提出了一种新的LLM增强的MIL方法,能够联合检测谣言和立场,仅使用谣言声明的真实性标签进行监督,展示了在不同语言和社交媒体平台上的泛化能力。
文件 3:Can Large Language Models Detect Rumors on Social Media?
Qiang Liu et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:大型语言模型(LLM)在社交媒体谣言检测中的应用潜力尚未被充分探索。LLM在处理复杂传播信息时存在困难,如无法集中关注关键线索、难以处理大量冗余信息。
研究对象:提出一种LLM驱动的谣言检测方法(LeRuD),通过设计提示(prompt)引导LLM关注新闻和评论中的关键线索,并将传播信息划分为传播链(Chain-of-Propagation)以减轻LLM的负担。
数据与模型:
- 数据:使用Twitter15、Twitter16和Weibo数据集。
- 方法:
- 提示设计:设计合理提示(Rational Prompts)和冲突提示(Conflicting Prompts),引导LLM关注新闻的写作风格、常识错误以及评论中的反驳或冲突。
- 传播链:将传播信息划分为多个时间步的传播链,每步处理合理数量的评论,使LLM能够逐步推理。
评估:
- 性能比较:LeRuD在Twitter和Weibo数据集上均优于多种基于图神经网络和LLM的基线方法,准确率、精确率、召回率和F1分数分别提升3.2%到7.7%。
- 零样本学习:LeRuD在零样本设置下表现出色,无需训练数据即可检测谣言。
成果:证明了LLM在社交媒体谣言检测中的有效性,特别是在零样本或少样本场景下,为实际应用提供了新的思路。
文件 4:Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
Beizhe Hu et al., CAS & NUS
背景:大语言模型(LLM)在假新闻检测中的潜力尚未被充分探索。尽管LLM在多任务中表现出色,但在假新闻检测中表现不如微调的小语言模型(SLM)。
研究对象:提出一种新的框架(ARG),利用LLM生成的多角度解释辅助SLM进行假新闻检测。
数据与模型:
- 数据:使用中文Weibo21和英文GossipCop数据集。
- 方法:
- LLM分析:GPT-3.5生成多角度解释(如常识、文本风格)。
- ARG网络:SLM(BERT)动态选择LLM生成的解释作为辅助特征。
- 蒸馏版ARG-D:无需实时调用LLM,降低成本。
评估:
- 性能:ARG超越BERT基线4.2%(中文)/3.2%(英文),ARG-D保留90%性能。
- 发现:LLM在事实性判断上不可靠,但其“文本风格”解释对检测贡献最大。
成果:开源双语文本解释数据集,推动LLM-SLM协同研究。
文件 5:Explainable Fake News Detection With Large Language Model via Defense Among Competing Wisdom
Bo Wang et al., Jilin University & Hong Kong Baptist University
背景:现有的假新闻检测方法大多基于神经网络,无法提供解释。现有的可解释系统依赖于调查性新闻报道,效率低下且延迟严重。最近的研究假设多数意见等同于解释,但这种假设忽略了未验证报告中的不准确或偏见信息。
研究对象:提出一种基于防御的可解释假新闻检测框架(L-Defense),通过将群体智慧分为两方竞争,提取关键证据,并利用LLM生成解释,最终通过防御机制确定新闻的真实性。
数据与模型:
- 数据:使用RAWFC和LIAR-RAW两个数据集。
- 方法:
- 证据提取模块:将群体智慧分为支持和反对两方,提取关键证据。
- 基于提示的推理模块:利用LLM生成针对两种可能真实性的解释。
- 防御推理模块:通过建模解释之间的防御关系来确定新闻的真实性。
评估:
- 性能:L-Defense在两个数据集上均取得了最佳或接近最佳的性能。
- 解释质量:通过ChatGPT评估,L-Defense在误导性、信息量、合理性、可读性等指标上均优于基线方法。
成果:提出了一种新的基于防御的框架,能够有效利用群体智慧中的竞争信息,生成高质量的解释,并在假新闻检测中取得优异性能。
以下是按照您提供的格式对每篇论文进行的总结:
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection → arXiv 2024
Herun Wan et al., Xi'an Jiaotong University & University of Washington & University of Notre Dame
背景:大语言模型(LLM)在事实性和真实性方面存在挑战,难以直接用于新闻真实性判断。
研究对象:提出DELL框架,整合LLM在新闻真实性评估中的多个关键阶段。
数据与模型:
- 数据:7个数据集,涵盖人类撰写和机器生成的虚假信息。
- 方法:
- 多样化反应生成:利用LLM生成不同视角的新闻评论,模拟用户-新闻互动网络。
- 可解释代理任务:设计6个代理任务(如情感分析、框架检测)生成解释,丰富新闻上下文。
- LLM基础专家集成:通过LLM合并不同专家的预测和置信度,提供总体预测。
评估:
- 性能提升:DELL在所有数据集上超越基线模型,最高提升16.8%的宏F1分数。
- 模型校准:LLM引导的专家集成使模型预测更加校准。
成果:证明LLM在生成反应和解释方面的能力,为虚假信息检测提供新视角。
CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection → ACCV 2024
Devank et al., Indian Institute of Science
背景:现有方法依赖大量标注数据,而获取大量标注的图像-文本对成本高昂。
研究对象:提出CoVLM框架,利用少量标注数据和大量未标注数据进行半监督多模态假新闻检测。
数据与模型:
- 数据:NewsCLIPpings、GossipCop、PolitiFact等数据集。
- 方法:
- 伪标签生成:结合CLIP和BLIP模型的共识,为未标注数据生成稳健的伪标签。
- 阈值参数估计:从标注数据中自动确定阈值,选择置信度高的伪标签。
- 统一训练:结合标注和未标注数据进行训练,利用对比聚类损失增强性能。
评估:
- 性能提升:CoVLM在多个数据集上优于现有半监督方法,最高提升10.5%的准确率。
- 数据不平衡:在数据不平衡条件下,CoVLM仍保持良好性能。
成果:提出一种有效的半监督多模态假新闻检测方法,适用于真实世界场景。
Clean-label Poisoning Attack against Fake News Detection Models → IEEE BigData 2023
Jiayi Liang et al., Beijing University of Posts and Telecommunications & Beihang University
背景:现有文本数据中毒攻击需要同时控制新闻样本的内容和标签,实际场景中难以实现。
研究对象:提出COMCP,一种针对假新闻检测模型的清洁标签中毒攻击模型。
数据与模型:
- 数据:Fakenewsnet、PHEME、CED等数据集。
- 方法:
- 隐秘字符添加:通过添加不可见字符和分隔符等隐秘字符,生成难以检测的毒化评论。
- 预评论生成:利用LLM生成与新闻内容相关的评论。
- 评论扰动:通过遗传算法选择最优隐秘字符组合,扰动预评论。
评估:
- 攻击成功率:COMCP在多个数据集上攻击成功率高于基线方法,最高达76.42%。
- 文本质量:生成的毒化评论在自然性和流畅性上优于基线方法。
成果:揭示假新闻检测模型在训练阶段的脆弱性,为模型安全性研究提供新方向。
Fighting Fire with Fire: The Dual Role of LLMs in Crafting and Detecting Elusive Disinformation → EMNLP 2023
Jason Lucas et al., The Pennsylvania State University & MIT Lincoln Laboratory
背景:LLM可能被用于生成大规模有害和误导性内容,需研究其在生成和检测虚假信息中的双重角色。
研究对象:提出“以火攻火”(F3)策略,利用LLM的生成和推理能力对抗虚假信息。
数据与模型:
- 数据:CoAID、FakeNewsNet、F3等数据集。
- 方法:
- 虚假信息生成:通过paraphrase和perturbation前缀提示生成真实和虚假新闻。
- 净化框架:使用AlignScore、NLI等指标过滤 hallucination 内容。
- 零样本检测:利用cloze-style提示和链式推理技术进行零样本检测。
评估:
- 生成能力:LLM能够生成高质量的虚假信息,但存在一定的 hallucination 问题。
- 检测性能:LLM在零样本检测中表现优于定制化和微调的检测器,但对人类生成的虚假信息检测能力有限。
成果:展示了LLM在生成和检测虚假信息中的潜力和局限性,为未来研究提供方向。
Explainable Fake News Detection with Large Language Model via Defense Among Competing Wisdom → WWW 2024
Bo Wang et al., Jilin University & Hong Kong Baptist University
背景:大多数假新闻检测方法基于神经网络的黑箱模型,缺乏可解释性。
研究对象:提出一种基于防御的可解释假新闻检测框架,利用竞争智慧生成解释。
数据与模型:
- 数据:RAWFC、LIAR-RAW等数据集。
- 方法:
- 证据提取:将竞争智慧分为两派,提取支持和反对的证据。
- 基于提示的推理:利用LLM生成针对两种可能真实性的解释。
- 防御式推理:通过比较解释的质量来确定新闻的真实性。
评估:
- 性能提升:在两个基准数据集上达到新的最佳性能,宏F1分数显著提高。
- 解释质量:生成的解释在信息量、逻辑性和可读性上优于基线方法。
成果:提出一种新的可解释假新闻检测框架,有效利用LLM的推理能力,提供高质量解释。
好的,我将按照你提供的格式对这三篇论文进行总结。
TrumorGPT: Query Optimization and Semantic Reasoning over Networks for Automated Fact-Checking → CISS 2024
Ching Nam Hang et al., City University of Hong Kong & Nanyang Technological University
背景:社交媒体时代,虚假信息和谣言的快速传播导致信息疫情(infodemics),对社会构成重大威胁。传统的事实核查方法难以应对数字时代信息的海量和快速传播。
研究对象:提出TrumorGPT框架,结合机器学习和自然语言处理技术,利用大型语言模型(LLM)和知识图谱进行自动化事实核查,特别关注“trumor”(最终被证实为真实的谣言)。
数据与模型:
- 数据:使用DBpedia的RDF三元组构建知识库,涵盖美国政治领域,确保数据更新至2023年4月之后。
- 方法:
- 查询处理:通过语义相似性分析找到相关信息,利用TextRank算法和少量样本进行少样本学习,构建语义知识图谱。
- 语义知识图谱:将实体和关系以图的形式表示,通过TextRank优化知识图谱的构建。
- LLM与检索增强生成(RAG):使用GPT-4进行语义相似性分析和知识图谱扩展,通过RAG访问最新知识库,减少LLM的“幻觉”问题。
- 评估:使用PolitiFact数据集(2024年美国大选相关)进行评估,将PolitiFact的六类评级简化为真/假二分类。
评估:
- 性能:TrumorGPT正确识别88%的真实陈述和93%的虚假陈述,表现出色,尤其在识别虚假陈述方面表现更好。
- 案例分析:展示了TrumorGPT在验证佛罗里达州保险费率和马里科帕县投票站数量等新闻真实性方面的应用。
成果:TrumorGPT通过结合LLM和知识图谱,有效解决了LLM的“幻觉”问题,提高了自动化事实核查的准确性和可靠性,为应对虚假信息传播提供了有力工具。
基于大语言模型隐含语义增强的细粒度虚假新闻检测方法 → 计算机研究与发展 2024
柯婧等,中国科学技术大学 & 福州大学
背景:随着生成式人工智能技术的发展,虚假新闻的生成和传播变得更加容易,对社会造成严重影响。现有方法主要关注语法和内容煽动性,但缺乏对内容本身的判断和模型判别原因的解释。
研究对象:提出一种基于大语言模型隐含语义增强的细粒度虚假新闻检测方法,通过主干事件、细粒度次要事件和隐含信息的层次化推导,逐步判别新闻的真实性。
数据与模型:
- 数据:使用FakeNewsAMT和Snopes数据集,涵盖多个新闻领域。
- 方法:
- 主干事件提取:利用大语言模型的总结能力,按照“5W1H”结构提取新闻主干事件。
- 细粒度信息提取:通过多次询问的方式提取次要事件,利用检索补充外部知识。
- 隐含信息推理:通过大语言模型推理新闻背后的隐含信息,结合外部知识进行判断。
- 评估:使用准确率、F1值、精确率和召回率作为评估指标。
评估:
- 性能:在FakeNewsAMT数据集上,该方法的F1值和召回率分别比现有方法提高了5个百分点和13个百分点,表现出色。
- 消融实验:验证了主干事件、细粒度信息和隐含信息各部分对模型性能的贡献,特别是隐含信息对召回率的提升显著。
成果:该方法通过分解任务,充分发挥大语言模型的抽取和推理能力,提高了虚假新闻检测的准确性和可解释性,为虚假新闻检测提供了新的有效方法。
TELLER: A Trustworthy Framework For Explainable, Generalizable and Controllable Fake News Detection → arXiv 2024
Hui Liu et al., City University of Hong Kong & Nanyang Technological University
背景:现有的深度学习方法在检测虚假新闻方面取得了进展,但其可靠性因缺乏透明性、泛化能力和与大语言模型(LLM)集成的风险而受到质疑。
研究对象:提出TELLER框架,通过认知和决策系统的双重框架,优先考虑模型的可解释性、泛化能力和可控性,以提高虚假新闻检测的可信度。
数据与模型:
- 数据:使用LIAR、Constraint、PolitiFact和GossipCop四个数据集进行实验。
- 方法:
- 认知系统:将人类专业知识转化为逻辑谓词,通过LLM生成逻辑原子的真值。
- 决策系统:利用可微分的神经符号模型(DNF Layer)从数据中自动学习逻辑规则,聚合逻辑原子的真值以预测新闻的真实性。
- 评估:使用准确率和宏F1值作为评估指标,进行跨域和单域实验。
评估:
- 性能:TELLER在多个数据集上表现出色,特别是在使用Llama2(13B)时,准确率和宏F1值显著高于直接使用LLM的方法。
- 泛化能力:TELLER在跨域实验中表现出色,能够学习到领域无关的规则,提高模型的泛化能力。
- 可控性:通过手动调整决策系统中的规则和干预认知系统的行为,验证了TELLER的可控性。
成果:TELLER框架通过结合认知和决策系统,有效提高了虚假新闻检测的可信度,为构建可靠的虚假新闻检测系统提供了新的思路和方法。
以下是根据要求格式总结的文件内容:
Reinforcement Tuning for Detecting Stances and Debunking Rumors Jointly with Large Language Models → arXiv 2024
Ruichao Yang et al., Hong Kong Baptist University & Singapore Management University & Jilin University
背景:社交媒体中谣言和虚假信息传播迅速,联合检测立场和验证谣言的多任务模型面临数据获取困难的挑战。
研究对象:提出一种基于强化调整框架(JSDRV),利用大型语言模型(LLM)联合检测立场和验证谣言。
数据与模型:
- 数据:使用Twitter15/16、PHEME等基准数据集。
- 方法:
- LLM立场检测网络:采用ε-greedy策略预选帖子,通过提示学习生成立场标签和解释。
- LLM谣言验证网络:基于预选帖子和标签,通过提示学习验证谣言。
- 强化选择策略:通过混合奖励机制选择高质量标签,优化LLM微调。
评估:
- 立场检测性能:JSDRV在多个基准数据集上优于多种基线模型,如BERT、BiGRU等。
- 谣言验证性能:JSDRV在RumorEval-S等数据集上显著优于其他方法,最高提升31.18%。
成果:证明LLM在联合任务中的潜力,提出通用框架可扩展至非LLM模型,为社交媒体中的谣言检测提供新思路。
RAEmoLLM: Retrieval Augmented LLMs for Cross-Domain Misinformation Detection Using In-Context Learning Based on Emotional Information → arXiv 2025
Zhiwei Liu et al., University of Manchester & Wuhan University & University of Melbourne & Carnegie Mellon University
背景:跨领域虚假信息检测依赖于费力的微调和复杂模型结构,而现有LLM主要应用于领域内任务,未充分利用情感特征。
研究对象:提出基于情感信息的检索增强LLM框架(RAEmoLLM),用于跨领域虚假信息检测。
数据与模型:
- 数据:使用FakeNewsAMT、Celebrity、PHEME、COCO等数据集。
- 方法:
- 索引构建模块:应用情感LLM获取情感嵌入,构建检索数据库。
- 检索模块:根据目标领域内容,从源领域数据中检索情感相关示例。
- 推理模块:将检索到的示例作为少样本演示,驱动LLM进行目标领域内容验证。
评估:
- 性能提升:RAEmoLLM在三个基准数据集上显著优于其他少样本方法,最高提升31.18%。
- 情感信息有效性:基于情感信息的检索优于其他类型嵌入,证明情感信息在跨领域检测中的重要性。
成果:首次将情感信息引入跨领域虚假信息检测,提供简单高效的方法,为LLM在该领域的应用开辟新途径。
Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines → arXiv 2024
Md Main Uddin Rony et al., University of Maryland & University of Oklahoma
背景:误导性新闻标题对信息完整性构成挑战,需要强大的检测机制。
研究对象:探索LLM(如ChatGPT-3.5、ChatGPT-4、Gemini)在识别误导性与非误导性新闻标题中的效能。
数据与模型:
- 数据:收集涵盖健康、科技、商业等领域的60篇文章。
- 方法:
- 数据收集:从可靠和不可靠来源收集新闻文章,人工标注标题是否误导性。
- LLM评估:使用LLM评估标题是否误导性,并提供解释。
评估:
- 模型性能:ChatGPT-4在误导性标题识别上表现最佳,准确率达88%。
- 人类共识:在人类共识一致的情况下,ChatGPT-4性能最高,但在混合共识情况下性能下降。
成果:强调人类中心评估在开发LLM中的重要性,揭示LLM在误导性标题检测中的潜力与挑战,为AI伦理和信息完整性研究提供新视角。
Tell Me Why: Explainable Public Health Fact-Checking with Large Language Models → arXiv 2024
Majid Zarharan et al., Dublin City University & Iran University of Science and Technology & Cardiff University & Lucerne School of Computer Science and Information Technology
背景:公共卫生领域中,信息快速传播使得人工事实核查面临挑战,而自动事实核查机制对保护公众健康至关重要。
研究对象:通过一系列实验,全面分析大型语言模型在验证公共卫生声明真实性及提供解释方面的表现。
数据与模型:
- 数据:使用PUBHEALTH数据集,包含12243个声明及其解释。
- 方法:
- 零样本/少样本提示:评估LLM在零样本和少样本情况下的性能。
- 参数高效微调(PEFT):通过PEFT优化LLM性能。
- 双重评估方法:结合自动指标和人类评估标准。
评估:
- 自动评估:在零样本情况下,GPT-4表现最佳,但在少样本和PEFT情况下,开源模型可超越GPT-4。
- 人类评估:揭示模型在解释质量上的差异,指出金标准解释存在的问题。
成果:提供人类评估解释性事实核查的新指南,通过大量实验展示LLM在公共健康领域的潜力与局限,为开发更可靠工具提供依据。
Mining the Explainability and Generalization: Fact Verification Based on Self-Instruction → arXiv 2024
Guangyao Lu et al., Hunan University
背景:基于商业LLM的事实核查虽具高可解释性,但在准确性上逊于传统微调方法,且数据安全是重要考量。
研究对象:提出基于自指导微调方法,平衡事实核查中的准确性和可解释性。
数据与模型:
- 数据:使用FEVEROUS和HOVER数据集。
- 方法:
- 数据增强:通过反事实数据增强和自指导生成多种解释,联合建模标签和解释。
- 改进DPO微调:采用改进的DPO算法微调LLM。
评估:
- 性能提升:在FEVEROUS和HOVER数据集上,该方法在保持高可解释性的同时,准确率与传统微调方法相当甚至更高。
- 泛化能力:在跨数据集测试中,该方法展现出良好的泛化性能。
成果:首次将自监督学习应用于事实核查,创新性地结合对比学习和改进DPO,为开源LLM在事实核查中的应用提供新思路。
以下是按照指定格式对每篇论文的总结:
Rumour Evaluation with Very Large Language Models → Canadian Conference on Artificial Intelligence 2024
Dahlia Shehata et al., University of Waterloo
背景:社交媒体上的谣言传播迅速,对社会造成负面影响。传统机器学习方法在谣言检测中已取得进展,但生成式AI的出现为谣言检测提供了新思路。
研究对象:利用大型语言模型(LLM)的提示工程能力,通过扩展RumourEval任务的Twitter数据集,研究谣言的真实性预测和立场分类。
数据与模型:
- 数据:使用SemEval 2017的Twitter谣言数据集。
- 方法:
- 模型选择:采用GPT-3.5-turbo和GPT-4两种LLM变体。
- 提示工程:设计多种提示,通过零样本、单样本和少样本学习进行谣言真实性预测和立场分类。
- 分类方案:尝试二分类、三分类和两步分类方案。
评估:
- 真实性预测:零样本设置下,二分类方案的准确率超过基线25%,最佳结果的置信度均方根误差(RMSE)降低73.5%。
- 立场分类:零样本设置下,三分类方案的准确率超过基线98%,但整体表现不如微调方法。
成果:展示了LLM在谣言检测中的潜力,为未来研究提供了新的方向和实验设置。
Argumentative Large Language Models for Explainable and Contestable Claim Verification → AAAI 2025
Gabriel Freedman et al., Imperial College London
背景:大型语言模型(LLM)在知识编码和零样本应用方面表现出色,但在输出的可解释性和可争议性方面存在不足。
研究对象:提出一种增强LLM可解释性和可争议性的方法——论证式LLM(ArgLLM),通过构建论证框架进行决策支持。
数据与模型:
- 数据:使用TruthfulQA、StrategyQA和MedQA等数据集进行实验。
- 方法:
- 论证生成:利用LLM生成支持和反对特定输出的论证。
- 内在强度评估:通过LLM为论证分配内在强度。
- 论证强度计算:应用渐进语义计算框架的定量双极论证框架(QBAF)进行推理。
评估:
- 性能:ArgLLM在真实性验证任务中与基线方法(如直接提示和链式思考)相比,准确率相当,但具有更好的可解释性和可争议性。
- 可争议性:通过修改QBAF中的论证或关系,可以显著影响输出,验证了ArgLLM的可争议性。
成果:提出了一种新的可解释和可争议的LLM方法,适用于需要透明决策的场景。
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection → arXiv 2024
Peng Qi et al., National University of Singapore
背景:在社交媒体上,将真实图像重新用于虚假文本的“出情境”(Out-of-Context, OOC)虚假信息是一种常见的误导方式。
研究对象:提出SNIFFER,一种用于检测和解释OOC虚假信息的多模态大型语言模型。
数据与模型:
- 数据:基于NewsCLIPpings数据集进行实验。
- 方法:
- 两阶段指令调优:首先对InstructBLIP进行新闻领域对齐,然后通过OOC特定指令数据进行任务特定调优。
- 外部工具增强:结合图像检索和工具使用,增强模型的上下文验证能力。
评估:
- 检测性能:SNIFFER在检测准确性上超过原始MLLM 40%以上,优于现有方法。
- 解释能力:通过定量和人类评估验证,SNIFFER能够生成准确且有说服力的解释。
成果:SNIFFER在OOC虚假信息检测和解释方面表现出色,为多模态虚假信息检测提供了新的解决方案。
Multimodal Large Language Models to Support Real-World Fact-Checking → arXiv 2024
Jiahui Geng et al., Mohamed bin Zayed University of Artificial Intelligence
背景:多模态虚假信息对社会构成威胁,大型语言模型(LLM)在事实核查中的潜力和局限性尚未充分研究。
研究对象:提出一个框架,系统评估多模态模型在无外部证据支持下的事实核查能力。
数据与模型:
- 数据:使用Fauxtography、COSMOS、MOCHEG和Post-4V等多模态事实核查数据集。
- 方法:
- 提示设计:设计提示以提取模型的预测、解释和置信度。
- 性能评估:从准确性、偏见和推理能力等多个维度评估模型。
评估:
- 性能:GPT-4V在多个数据集上表现出色,准确率超过80%,并能提供有说服力的解释。
- 改进方法:提示集成(PE)和上下文学习(ICL)可以提高开源模型的性能,其中ICL效果更显著。
成果:提供了多模态LLM在事实核查中的全面评估,为未来研究提供了方向。
MMIDR: Teaching Large Language Model to Interpret Multimodal Misinformation via Knowledge Distillation → arXiv 2024
Longzheng Wang et al., Institute of Information Engineering, CAS
背景:多模态虚假信息的自动检测受到广泛关注,但利用大型语言模型(LLM)进行解释的能力尚未充分开发。
研究对象:提出MMIDR框架,通过知识蒸馏将专有LLM的解释能力传授给开源LLM,以生成高质量的文本解释。
数据与模型:
- 数据:基于MR2数据集构建指令遵循的多模态数据集MR2llm。
- 方法:
- 数据增强:将图像和文本信息转换为适合LLM处理的格式。
- 知识蒸馏:使用LoRA技术将专有LLM的解释能力传授给开源LLM。
评估:
- 性能:MMIDR在多模态虚假信息检测任务中表现出色,准确率达到93.63%。
- 解释能力:尽管学生模型在解释能力上略逊于教师模型,但仍能生成流畅的文本解释。
成果:展示了LLM在多模态虚假信息检测中的潜力,并为开源LLM的解释能力提升提供了新方法。
以下是对每篇论文的总结:
Can Large Language Models Detect Misinformation in Scientific News Reporting?
Yupeng Cao et al., Stevens Institute of Technology & Peraton Labs
背景:科学新闻报道中存在虚假信息,尤其在新冠疫情期间,对公众健康和决策造成风险,自动检测科学领域虚假信息具有挑战性且仍处于起步阶段。
研究对象:探索大型语言模型(LLM)是否可用于检测科学新闻报道中的虚假信息。
数据与模型:
- 数据:构建了新的标注数据集SciNews,包含2400篇科学新闻故事,来源可靠和不可靠,与CORD-19数据库中的相关摘要配对,涵盖人类撰写和LLM生成的文章。
- 方法:
- 维度定义:定义科学有效性的维度,如对齐、因果混淆、准确性、泛化和上下文保真度。
- 架构设计:提出三种基于LLM的架构:SERIf(包含总结、证据检索和推理模块)、SIf(省略证据检索模块)和D2I(直接推理,省略总结和证据检索模块),并采用零样本、少样本和链式思考提示策略。
- 实验:使用GPT-3.5、GPT-4和Llama2-7B、Llama2-13B等LLM进行实验,评估准确性、精确率、召回率和F1分数。
评估:
- 人类与LLM生成的虚假信息检测:LLM生成的虚假信息比人类撰写的更难检测,准确率和F1分数显著低于人类撰写的。
- 架构性能:SIf架构在人类撰写的新闻文章检测中表现最佳,准确率达到82.50%,F1分数达到83.50%;D2I架构表现最差。
- 提示策略:链式思考提示在某些情况下能显著提升性能,但在LLM生成的新闻文章检测中效果有限。
- 解释能力:LLM能够为决策过程提供合理的解释,帮助用户理解模型对新闻真实性的判断。
成果:证明了LLM在检测科学新闻虚假信息方面的潜力,尤其是在人类撰写的新闻文章检测中,同时揭示了LLM生成内容检测的挑战,并强调了定义科学有效性维度和提供解释的重要性。
FKA-Owl: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs
Xuannan Liu et al., Beijing University of Posts and Telecommunications & University of California, Santa Barbara
背景:多模态假新闻的广泛传播对社会构成威胁,传统检测方法受限于训练域的封闭性,难以应对开放世界中的分布差异。
研究对象:提出FKA-Owl框架,通过注入伪造特定知识增强大型视觉语言模型(LVLM)以有效应对多模态假新闻检测中的操纵识别。
数据与模型:
- 数据:在公共基准数据集上进行广泛实验,包括DGM4数据集(230K图像-文本配对样本)和NewsCLIPpings数据集。
- 方法:
- 知识增强:识别两种伪造特定知识——文本与图像之间的语义相关性以及图像操纵中的伪影痕迹,并设计两个模块(跨模态推理模块和视觉伪影定位模块)来建立这些知识的表示。
- 跨模态推理模块:通过双重跨注意力机制整合视觉和文本信息,识别语义不一致性。
- 视觉伪影定位模块:利用稀疏边界框和详细掩码区域检测视觉伪影。
- 伪造感知视觉语言模型:将编码的知识表示嵌入到LVLM的语言空间中,并采用候选答案启发式和软提示来激活LVLM的广泛知识。
- 实验:通过多种跨域设置评估FKA-Owl的性能。
评估:
- 单域设置:FKA-Owl在跨域测试中显著优于基线模型,如PandaGPT和HAMMER,平均AUC提升25.12%,在华盛顿邮报子集测试中提升7.7%。
- 多域设置:在多域训练和测试中,FKA-Owl展现出优越性能,平均AUC提升33.35%,表明其在实例级域泛化方面的能力。
- 跨数据集设置:在NewsCLIPpings数据集上,FKA-Owl在跨数据集测试中平均AUC提升5.72%,超越SOTA模型HAMMER。
- 消融研究:验证了跨模态推理模块和视觉伪影定位模块的有效性,缺少这些模块会导致性能显著下降。
成果:FKA-Owl通过将LVLM的丰富世界知识与伪造特定知识相结合,有效解决了多模态假新闻检测中的域偏移问题,为开放世界中的假新闻检测提供了一种通用解决方案。
Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification
John Dougrez-Lewis et al., University of Warwick, Queen Mary University of London, University of Bologna, King's College London, The Alan Turing Institute
背景:尽管LLM在数学和编码相关推理任务中表现出色,但其在其他推理形式上的能力仍不清楚,特别是在基于证据的声明验证领域,需要进一步研究LLM的推理能力。
研究对象:通过构建框架和基准,评估LLM在基于证据的声明验证中的演绎和溯因推理能力。
数据与模型:
- 数据:创建RECV基准,包含三个数据集(VitaminC、CLIMATE-FEVER、PHEMEPlus),涵盖不同领域和复杂度的声明验证问题。
- 方法:
- 框架设计:提出框架将声明与证据分解为原子推理类型,重点关注演绎和溯因推理。
- 基准构建:RECV包含三个数据集,样本数量和复杂度递增,用于评估LLM的推理能力。
- 实验:使用Claude V3Sonnet、GPT-4和GPT-4o等LLM,在不同提示设置下进行评估,包括零样本、手动链式思考和零样本链式思考提示。
评估:
- 演绎推理:LLM在演绎推理问题上表现良好,但在需要溯因推理的场景中失败。
- 链式思考提示:在简单声明验证中,链式思考提示可提升性能,但在复杂声明验证中效果不佳甚至有害。
- 解释质量:生成的解释与人类解释在语义上相似,尤其是在演绎推理中,但在溯因推理中倾向于生成断言而非不确定推理。
成果:揭示了LLM在声明验证中的推理能力局限性,特别是在溯因推理方面,强调了进一步研究以提升LLM在复杂推理任务中的能力的必要性。
LEMMA: LVLM-Enhanced Multimodal Misinformation Detection with External Knowledge Augmentation
Keyang Xuan et al., University of Illinois Urbana-Champaign
背景:多模态虚假信息在社交媒体上的传播对个人和社会构成威胁,其检测需要跨多种媒体类型的强大推理能力以及深厚的知识基础。
研究对象:提出LEMMA框架,通过外部知识增强来提升大型视觉语言模型(LVLM)在多模态虚假信息检测中的准确性。
数据与模型:
- 数据:在Twitter和Fakeddit数据集上进行评估。
- 方法:
- 初始阶段推理:LVLM基于观察到的跨模态不一致性评估帖子是否包含虚假信息,并决定是否需要外部信息进行最终判断。
- 多模态检索:结合基于推理的多查询文本检索和图像上下文检索,生成与原始帖子高度相关的文档集。
- 资源蒸馏:采用粗到细的蒸馏方法,过滤与主题相关的资源,并提取支持或反驳原始帖子的关键段落。
- 精炼预测:结合提取的证据重新评估图像-文本对,将帖子分类为真、讽刺、误导性内容等六种类型。
- 实验:与多种基线模型进行比较,包括LLaVA、InstructBLIP、GPT-4等。
评估:
- 性能提升:LEMMA在Twitter和Fakeddit数据集上分别比顶级基线LVLM提高了9%和13%的准确性。
- 消融研究:验证了初始阶段推理和视觉检索模块的有效性,缺少这些模块会导致性能下降。
成果:证明了外部知识增强对LVLM在多模态虚假信息检测中的重要性,为需要视觉、语言和验证能力交叉的解释性推理任务提供了一种可扩展的方法。
SoMeLVLM: A Large Vision Language Model for Social Media Processing
Xinnong Zhang et al., Fudan University & University of Rochester
背景:社交媒体的多模态特性带来了多样化的现象和挑战,需要有效的方法来统一解决自动化任务,但通用领域的大型语言模型在对齐社交媒体的独特风格和上下文方面存在不足。
研究对象:介绍SoMeLVLM,这是一个为社交媒体处理设计的
以下是按照指定格式对提供的文件内容的总结:
A Revisit of Fake News Dataset with Augmented Fact-checking by ChatGPT → arXiv 2024
Zizhong Li et al., University of California, Davis
背景:现有的假新闻数据集主要来源于人工记者验证,可能存在固有偏见。
研究对象:重新审视现有假新闻数据集,并通过ChatGPT增强事实核查。
数据与模型:
- 数据:从PolitiFact网站收集22,337条新闻声明,涵盖政治和社会问题。
- 方法:
- ChatGPT辅助事实核查:设计提示让ChatGPT为新闻生成事实核查报告。
- 多维度分析:分析新闻主题可信度、新闻创作者可信度、时效性等。
- 偏差分析:从文本内容和评估标准角度分析数据集固有偏见。
评估:
- ChatGPT表现:在某些主题上与人工记者判断一致性较高,但在时效性新闻上表现较差。
- 固有偏见:人工记者标签存在主观性,ChatGPT基于事实证据更客观。
成果:提出ChatGPT-FC数据集,包含人工和ChatGPT生成的核查报告,为假新闻检测提供新视角。
Can Large Language Models Detect Rumors on Social Media? → arXiv 2024
Qiang Liu et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:社交媒体上的谣言传播迅速,而大语言模型(LLM)在处理复杂传播信息时存在挑战。
研究对象:提出一种LLM赋能的谣言检测方法(LeRuD),通过提示设计和传播信息分解提高LLM检测能力。
数据与模型:
- 数据:使用Twitter和Weibo数据集进行实验。
- 方法:
- 提示设计:设计提示让LLM关注新闻和评论中的关键线索。
- 传播信息分解:将传播信息分解为传播链,降低LLM负担。
评估:
- 性能提升:LeRuD在零样本设置下超越多个SOTA模型,准确率提升3.2%到7.7%。
- 时效性分析:LLM在训练数据截止日期后的新闻检测能力下降。
成果:证明LLM在谣言检测中的潜力,特别是在少样本或零样本场景中。
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection → arXiv 2024
Herun Wan et al., Xi'an Jiaotong University & University of Washington & University of Notre Dame
背景:LLM在新闻真实性判断中存在事实性和幻觉问题,难以直接用于假新闻检测。
研究对象:提出DELL框架,通过生成反应、解释和专家集成提高LLM在假新闻检测中的表现。
数据与模型:
- 数据:使用7个数据集进行实验,涵盖新闻真实性、框架检测和宣传策略检测。
- 方法:
- 生成反应:LLM生成模拟用户对新闻的反应,丰富新闻上下文。
- 生成解释:LLM为代理任务(如情感、立场)生成解释,增强新闻理解。
- 专家集成:LLM整合不同专家的预测和置信度,提供综合判断。
评估:
- 性能提升:DELL在所有数据集上超越SOTA基线,最高提升16.8%。
- 模型校准:LLM引导的专家集成使模型校准更好,更可靠。
成果:提出一种结合LLM生成反应和解释的假新闻检测新方法。
Explore the Potential of LLMs in Misinformation Detection: An Empirical Study → arXiv 2024
Mengyang Chen et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:LLM在自然语言理解和推理方面表现出色,但在假新闻检测中的表现尚待系统研究。
研究对象:全面评估LLM在基于内容和传播的假新闻检测任务中的表现。
数据与模型:
- 数据:使用8个假新闻检测基准数据集进行实验。
- 方法:
- LLM作为检测器:通过不同提示指导LLM直接进行假新闻检测。
- LLM增强检测器:利用LLM进行数据增强和特征增强,结合现有模型进行检测。
评估:
- 性能表现:LLM在文本基础的假新闻检测中表现与小模型相当,但在传播结构理解上表现受限。
- 提示设计影响:精心设计的提示对LLM的检测性能有显著影响。
成果:揭示LLM在假新闻检测中的潜力和局限性,为未来研究提供方向。
Are Large Language Models Good Fact Checkers: A Preliminary Study → arXiv 2023
Han Cao et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:LLM在自然语言处理任务中表现出色,但在事实核查任务中的表现尚未系统评估。
研究对象:评估LLM在事实核查各个子任务中的表现,包括检查价值检测、证据检索、事实验证和解释生成。
数据与模型:
- 数据:使用3个事实核查基准数据集进行实验。
- 方法:
- 零样本设置:测试LLM在不同提示下的表现。
- 多任务处理:评估LLM是否能同时处理所有子任务。
- 提示调整:通过提示调整技术提高LLM的表现。
评估:
- 性能表现:LLM在大多数场景下表现与小模型相当,但在中文事实验证和整个事实核查流程中表现受限。
- 语言一致性问题:LLM在处理与训练数据语言不一致的输入时表现不佳。
成果:揭示LLM在事实核查任务中的潜力和挑战,为未来研究提供方向。
以下是按照指定格式对每篇论文的总结:
Towards Reliable Misinformation Mitigation: Generalization, Uncertainty, and GPT-4 → arXiv 2023
Kellin Pelrine et al., McGill University & Mila
背景:虚假信息对社会构成重大挑战,现有方法未能有效解决。近期大型语言模型(LLM)的发展为应对这一挑战提供了新思路。
研究对象:探讨如何通过关注泛化、不确定性和利用最新大型语言模型(如GPT-4)来构建更实用的虚假信息评估工具。
数据与模型:
- 数据:使用LIAR、CT-FAN-22数据集,并构建新的LIAR-New数据集,包含英语和法语的成对虚假信息数据及“可能性”标签。
- 方法:
- GPT-4:通过不同提示方法(如评分、二分类)测试GPT-4在硬分类和软分类任务中的表现。
- 不确定性评估:提出一种方法让GPT-4能够拒绝评估难以分类的例子,显著提高性能。
- 其他模型:对比RoBERTa-large等模型,分析温度、提示、版本等对性能的影响。
评估:
- 性能:GPT-4在多个数据集和语言上优于现有方法,二分类准确率在LIAR数据集上达到66.5%,在LIAR-New上通过不确定性评估方法提升至81.2%。
- 泛化能力:GPT-4与RoBERTa-large在错误模式上存在显著差异,GPT-4在“可能”和“不可能”例子上的表现优于RoBERTa-large。
- 不确定性:GPT-4能够有效识别“不可能”例子,排除这些例子后性能显著提升。
成果:为未来构建更实用的虚假信息检测工具奠定了基础,提出了新的数据集和评估方法,强调了泛化和不确定性在虚假信息检测中的重要性。
News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT 3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking → arXiv 2023
Kevin Matthe Caramancion, University of Wisconsin–Stout
背景:大型语言模型(LLM)在新闻事实核查中的应用潜力受到关注,但其准确性尚待验证。
研究对象:评估OpenAI的ChatGPT 3.5和4.0、Google的Bard/LaMDA以及Microsoft的Bing AI在新闻事实核查中的表现。
数据与模型:
- 数据:从独立事实核查机构获取100条已核查的新闻项目。
- 方法:
- 黑盒测试:将新闻项目呈现给各LLM,分类为“真”“假”“部分真/假”。
- 评估指标:基于与独立机构提供的事实核查结果的准确性进行评估。
评估:
- 性能:所有模型平均得分为65.25分,ChatGPT 4.0表现最佳,得分为71分。
- 与人类事实核查者对比:尽管LLM在理解新闻信息的细微差别和上下文方面仍有不足,但其表现仍显示出潜力。
成果:强调了AI在事实核查领域的潜力和局限性,指出人类认知技能在当前仍不可或缺,同时为未来AI能力的持续改进提供了方向。
Analysis of Disinformation and Fake News Detection Using Fine-Tuned Large Language Model → arXiv 2023
Bohdan M. Pavlyshenko, Ivan Franko National University of Lviv
背景:虚假信息和假新闻是当今社会的重大问题,大型语言模型(LLM)因其复杂文本分析能力而被用于检测。
研究对象:探讨使用PEFT/LoRA方法微调Llama 2 LLM以检测虚假信息和假新闻。
数据与模型:
- 数据:使用Kaggle假新闻数据集和Vox Ukraine的俄罗斯宣传叙事数据。
- 方法:
- 微调:采用PEFT/LoRA方法对Llama 2模型进行微调,用于分析文本中的虚假信息、事实核查、操纵分析等任务。
- 任务:分析文本中的虚假信息和宣传叙事、事实核查、假新闻检测、操纵分析、提取带情感倾向的命名实体。
评估:
- 性能:微调后的Llama 2模型能够进行深度文本分析,揭示复杂风格和叙事。
- 情感分析:提取的命名实体情感可作为监督机器学习中的预测特征。
成果:展示了微调LLM在虚假信息检测中的潜力,提出了使用PEFT/LoRA方法进行高效微调的可行性,并强调了进一步改进的方向,如更精确的训练数据集和利用RLHF方法优化LLM。
Language Models Hallucinate, but May Excel at Fact Verification → arXiv 2024
Jian Guan et al., Tsinghua University & Allen Institute for AI
背景:大型语言模型(LLM)在自然语言生成任务中表现出色,但存在“幻觉”问题,即生成非事实内容。
研究对象:评估LLM的幻觉程度,并探索其作为事实验证器的潜力。
数据与模型:
- 数据:使用Wikipedia等可靠数据源进行人类评估,涵盖多个领域的事实验证数据集。
- 方法:
- 幻觉量化:通过人类评估量化LLM的幻觉问题,发现GPT-3.5等模型生成的事实内容少于25%。
- 事实验证:将LLM与检索组件结合,通过外部证据增强事实验证能力。
评估:
- 性能:FLAN-T511B在事实验证中表现最佳,甚至优于GPT-3.5和ChatGPT。
- 证据依赖性:ChatGPT对无关证据更敏感,但在面对相关但虚假或矛盾证据时表现更好。
- 鲁棒性与泛化能力:FLAN-T511B在不同提示下的表现更稳定,且在跨领域验证中表现优于ChatGPT。
成果:揭示了LLM在生成和验证事实内容方面的差异,提出了改进事实验证器的建议,强调了高质量证据的重要性,并为未来研究提供了新的基准。
好的,我将按照你提供的格式对《On the Role of Large Language Models in Crowdsourcing Misinformation Assessment》这篇文章进行总结:
On the Role of Large Language Models in Crowdsourcing Misinformation Assessment → ICWSM 2024
Jiechen Xu et al., The University of Queensland
背景:在线虚假信息的泛滥削弱了网络内容的可信度。众包和大语言模型(LLM)被提出用于评估虚假信息,但 LLM 的输出并不完美。
研究对象:研究众包工作者与 LLM 协作评估虚假信息的场景,分析 LLM 对众包工作者判断的影响。
数据与模型:
- 数据:从 PolitiFact 数据集中选取 120 条平衡党派和真实性的政治声明。
- 方法:
- LLM 输出:使用 GPT-3.5 为每条声明生成真实性标签(0-5)和解释。
- 实验设计:采用 $2\times2$ 因子设计,4 个条件(无 LLM 输出、仅标签、仅解释、标签+解释)。
- 众包任务:通过 Prolific 平台招募美国本土、英语为母语的众包工作者,评估声明真实性并报告信心水平。
评估:
- 评估质量:LLM 输出导致众包工作者倾向于高估真实性,与 LLM 的高估倾向一致。外部一致性(与专家标签对比)和内部一致性(众包工作者间一致性)在各条件下无显著差异。
- 信心水平:LLM 输出对众包工作者的自评信心影响不大,但在提供标签和解释的条件下,与外部一致性正相关。
- 依赖与信任:众包工作者高度依赖 LLM 输出,尤其在提供标签时,但对 LLM 的信任未受 LLM 输出类型显著影响。
- 行为指标:LLM 辅助下,众包工作者减少搜索引擎使用,加快评估速度,但积极使用搜索引擎的工作者对 LLM 输出依赖度低。
成果:揭示 LLM 在虚假信息评估中的“双刃剑”效应,强调其对众包工作者判断的显著影响,同时指出仅提供解释可降低过度依赖风险。
以下是按照指定格式对三篇论文的总结:
Are Large Language Models Good Fact Checkers: A Preliminary Study → arXiv 2023
Han Cao et al., Chinese Academy of Sciences & University of Chinese Academy of Sciences
背景:大语言模型(LLM)在自然语言处理任务中表现出色,但其在事实核查中的潜力尚未被系统评估。
研究对象:全面评估LLM在事实核查子任务(如事实验证、解释生成等)中的表现,并与预训练小模型对比。
数据与模型:
- 数据:CheckThat!Lab、AVeriTeC 和 CHEF 三个事实核查数据集。
- 方法:
- 实验设置:在0-shot、1-shot和3-shot等不同设置下,使用不同提示方法测试LLM性能。
- 性能评估:针对不同子任务,采用F1分数、准确率、Meteor分数等指标。
评估:
- 检查值得检测性:GPT-3.5-turbo在1-shot和3-shot设置中表现最佳,但与SOTA模型仍有差距。
- 事实验证:GPT-3.5-turbo在英语事实验证中表现优于基线模型和预训练模型,但在中文事实验证中表现不佳。
- 解释生成:GPT-3.5-turbo生成的解释质量高于基线模型,但LLaMa2-7b表现较差。
- 全管道事实核查:LLM能够同时完成证据检索、事实验证和解释生成,但存在幻觉问题,导致性能不如微调的小模型。
成果:揭示LLM在事实核查中的潜力和挑战,为未来研究提供方向,强调需要进一步探索以提高LLM作为可靠事实核查器的能力。
JustiLM: Few-shot Justification Generation for Explainable Fact-Checking of Real-world Claims → arXiv 2024
Fengzhu Zeng & Wei Gao, Singapore Management University
背景:以往的事实核查中的解释生成任务被简化为对事实核查文章的总结,这种方法在实际应用中存在局限性。
研究对象:提出一种基于检索增强型语言模型的现实方法,利用检索到的证据生成解释,并构建新的基准数据集ExClaim。
数据与模型:
- 数据:基于WatClaimCheck数据集构建ExClaim,包含6951个真实世界的声明及其对应的可信度标签、人类编写的解释,以及957949个文档级别的可检索证据。
- 方法:
- JustiLM模型:基于检索增强型生成(RAG)框架,使用Atlas作为骨干模型,通过文章级和块级蒸馏技术利用事实核查文章作为训练时的辅助信息。
- 蒸馏技术:通过文章级和块级蒸馏,将事实核查文章的信息作为监督信号,训练检索器和语言模型。
评估:
- 性能比较:JustiLM在解释生成任务中优于In-Context Learning(ICL)语言模型,包括Flan-T5、Llama2和Atlas。与GPT-4相比,JustiLM在ROUGE分数和MAUVE分数上表现出色,尽管在SummaCC分数上略低于GPT-4。
- 联合预测和解释:JustiLM在联合预测可信度和生成解释的任务中表现出色,显著提高了可信度预测的准确性。
成果:提出JustiLM模型和ExClaim数据集,为可解释的事实核查提供了新的方法和资源,证明了利用检索到的证据生成解释的可行性。
Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate → arXiv 2024
Kyungha Kim et al., University of Illinois Urbana-Champaign & DAMO Academy, Alibaba Group & Northwestern University
背景:尽管大语言模型(LLM)在文本生成方面表现出色,但其在事实核查中生成可靠解释的能力尚未得到充分研究。
研究对象:提出多智能体辩论精炼(MADR)框架,通过多个LLM作为智能体进行迭代辩论和精炼,以提高生成解释的可靠性。
数据与模型:
- 数据:使用PolitiHop多跳事实核查数据集进行实验,包含445个测试实例,每个实例包含一个声明和多条证据。
- 方法:
- MADR框架:设置两个辩论者(DEBATER)、一个裁判(JUDGE)和一个精炼者(REFINER)。通过辩论和反馈迭代改进解释,直到达成共识。
- 错误分类:定义了九种错误类型,包括实体相关错误、事件相关错误、名词短语相关错误等,以帮助识别和纠正解释中的错误。
评估:
- 自动评估:使用G-Eval工具评估生成解释与证据的一致性,MADR在四种评估协议中的两种上表现最佳。
- 人工评估:通过亚马逊机械土耳其(AMT)进行人工评估,MADR生成的解释在20个样本中有30%是可靠的,错误数量最少。
成果:证明了MADR框架在提高LLM生成解释的可靠性方面的有效性,揭示了LLM在复杂事实核查场景中生成可靠解释的挑战,并提出了适合LLM的评估协议。
基于大语言模型隐含语义增强的细粒度虚假新闻检测方法 → 计算机研究与发展 2024
柯婧等,中国科学技术大学 & 福州大学
背景:生成式人工智能技术的发展使得虚假新闻的构建与传播变得更加简单,虚假新闻的检测难度增加。
研究对象:提出一种基于大语言模型隐含语义增强的细粒度虚假新闻检测方法。
数据与模型:
- 数据:FakeNewsAMT、Snopes数据集,涵盖体育、商业、娱乐、政治、技术和教育等领域。
- 方法:
- 主干事件提取:利用大语言模型的总结能力,提取新闻的主干事件。
- 细粒度信息提取:通过多次询问的方式,提取新闻中的细粒度次要事件。
- 隐含信息推理:结合外部知识,推理新闻背后的隐含信息。
- 层级递进式判别:按照主干事件、细粒度信息和隐含信息的顺序进行判别。
评估:
- 性能:在FakeNewsAMT数据集上,准确率、F1值、召回率分别达到70%、75%、91%,优于其他方法。
- 召回率提升:通过多分支归纳,有效提高虚假新闻的召回率,避免虚假信息遗漏。
成果:提出一种有效捕获虚假新闻的方法,具有一定的可解释性,为虚假新闻检测提供了新的思路。
Are Large Language Models Good Fact Checkers: A Preliminary Study → arXiv 2023
Han Cao等,中科院信息工程研究所 & 中国科学院大学
背景:大语言模型(LLM)因其出色的推理能力和广泛的知识库,在自然语言处理任务中表现出色,但其在事实核查中的表现尚未得到系统评估。
研究对象:评估LLM在事实核查任务中的表现,包括检查值得性检测、证据检索、事实验证和解释生成。
数据与模型:
- 数据:CheckThat!Lab、AVeriTeC和CHEF数据集。
- 方法:
- 零样本学习:使用不同提示词评估LLM在事实核查任务中的表现。
- 多任务处理:评估LLM是否能同时完成所有子任务。
- 提示词调整:通过提示词调整提升LLM的事实核查能力。
- 知识库利用:评估LLM是否能利用其知识库提供证据。
评估:
- 性能:LLM在大多数场景下表现优于小模型,但在中文事实验证和整体事实核查流程中存在挑战。
- 问题:LLM在处理语言不一致性和幻觉问题时表现不佳。
成果:揭示了LLM在事实核查中的潜力和挑战,为未来研究提供了方向。
Claim Check-Worthiness Detection: How Well do LLMs Grasp Annotation Guidelines? → arXiv 2024
Laura Majer等,萨格勒布大学
背景:识别需要事实核查的文本片段(即声明检测和声明值得性检测)是自动化事实核查流程的第一步,但依赖于复杂的领域特定标准。
研究对象:评估LLM在声明检测和声明值得性检测任务中的表现,使用零样本和少样本学习。
数据与模型:
- 数据:ClaimBuster、CLEF CheckThat!Lab、EnvironmentalClaims、NewsClaims和PoliClaim数据集。
- 方法:
- 提示词设计:根据数据集的标注指南设计不同详细程度的提示词。
- 上下文提供:实验不同数量的上下文信息对模型性能的影响。
- 排名评估:将声明值得性检测视为排名任务,使用LLM的置信度分数作为优先级的代理。
评估:
- 性能:LLM在不同数据集上的表现差异显著,最佳提示词详细程度因数据集而异。
- 上下文影响:提供上下文信息对低详细度提示词的性能提升更大。
成果:证明了LLM可以利用标注指南进行声明检测和值得性检测,并直接使用置信度分数产生可靠的值得性排名。
SynDy: Synthetic Dynamic Dataset Generation Framework for Misinformation Tasks → arXiv 2024
Michael Shliselberg等,康涅狄格大学 & Meedan
背景:针对少数族裔社区的虚假信息往往被主流事实核查组织忽视,需要扩大新兴事实核查倡议的努力。
研究对象:提出SynDy框架,利用LLM生成合成动态数据集,用于训练本地化的、针对特定语言的模型,以应对虚假信息任务。
数据与模型:
- 数据:利用社交媒体查询和LLM生成合成标签,涵盖声明匹配、主题聚类和声明关系分类任务。
- 方法:
- 数据选择:根据主题生成关键词,通过社交媒体API获取相关帖子。
- 数据标注:利用LLM的词汇和语义能力生成合成标签,通过语义聚类减少重复。
评估:
- 性能:在声明匹配、主题聚类和声明关系分类任务中,使用SynDy生成的数据训练的模型表现与人类标注数据相当。
- 成本效益:SynDy生成的数据集在成本和时间上具有显著优势。
成果:SynDy框架能够有效扩展人类主导的事实核查工作,降低对人工标注数据的依赖。
Automated Claim Matching with Large Language Models: Empowering Fact-Checkers in the Fight Against Misinformation → ACM Web Conference 2024
Eun Cheol Choi等,南加州大学
背景:在数字时代,虚假信息的快速传播对公共健康和社会信任构成威胁,人工核查难以应对。
研究对象:提出FACT-GPT框架,利用LLM自动化事实核查中的声明匹配阶段,识别与已核查声明相关的新社交媒体内容。
数据与模型:
- 数据:从Google Fact Check Tools和PolitiFact收集与COVID-19相关的虚假声明,构建测试数据集。
- 方法:
- 文本蕴含任务:将声明匹配问题转化为文本蕴含任务,分类为蕴含、中立和矛盾。
- 合成数据生成:利用LLM生成合成训练数据,优化模型性能。
- 模型微调:对GPT-3.5-Turbo、Llama-2-13b和Llama-2-7b进行微调,提升声明匹配能力。
评估:
- 性能:微调后的模型在声明匹配任务中表现与大型预训练模型相当,准确率达到74%。
- 效率:微调后的模型在训练和验证损失上表现出稳定趋势,适应新数据能力强。
成果:展示了LLM在增强事实核查工作中的潜力,为未来将LLM整合到事实核查流程中提供了框架。
以下是按照指定格式对每篇论文的总结:
CoVLM: Leveraging Consensus from Vision-Language Models for Semi-supervised Multi-modal Fake News Detection → ACCV 2024
Devank et al., Indian Institute of Science
背景:多模态假新闻检测中,真实图像与错误标题配对生成假新闻,现有方法依赖大量标注数据,实际中难以获取。
研究对象:提出半监督多模态假新闻检测框架CoVLM,利用少量标注数据和大量未标注数据。
数据与模型:
- 数据:NewsCLIPpings、GossipCop、PolitiFact数据集。
- 方法:
- CoVLM框架:结合CLIP和BLIP两个视觉-语言模型,通过阈值从标注数据中学习,为未标注数据生成鲁棒伪标签。
- 训练过程:使用标注数据估计阈值参数,结合伪标签进行统一训练,包含对比聚类损失增强性能。
评估:
- 性能:在NewsCLIPpings、GossipCop、PolitiFact数据集上,CoVLM显著优于现有半监督方法,接近全监督上界。
- 鲁棒性:在数据不平衡和不同未标注数据量情况下,CoVLM均表现出色。
成果:提出首个半监督多模态假新闻检测框架,有效利用未标注数据,为实际应用提供新思路。
Silver Lining in the Fake News Cloud: Can Large Language Models Help Detect Misinformation? → IEEE Transactions on Artificial Intelligence 2025
Raghvendra Kumar et al., IIT Patna & University of Innsbruck
背景:随着生成式人工智能的发展,区分真实与虚假信息成为社会挑战,LLMs既能生成逼真文本,也可能被用于制造假新闻。
研究对象:分析LLMs在检测虚假信息中的能力,覆盖多模型、少样本和零样本提示,引入情感分析维度。
数据与模型:
- 数据:PHEME、FakeNewsNet、Snopes、IFND、ESOC COVID-19数据集。
- 方法:
- 零样本与少样本提示:使用不同LLMs(GPT-3.5、BLOOM、FLAN-T5、GPT-Neo)进行实验,探索温度参数影响。
- 情感与情绪分析:结合VADER和DistilRoBERTa-base模型,分析情感对检测的影响。
- 故意扭曲新闻:用ChatGPT故意扭曲真实新闻和人类编写的假新闻,分析文本特征差异。
评估:
- 性能:零样本设置优于少样本,不包含情感情绪时性能更好,GPT-3.5在少样本场景表现最佳。
- 文本特征:人类编写的假新闻更抽象,LLM扭曲后的新闻更具体且命名实体密度低。
成果:提供LLMs在虚假信息检测中的全面分析,揭示其在不同数据集和设置下的表现,为改进检测工具提供见解。
Detect, Investigate, Judge and Determine: A Knowledge-guided Framework for Few-shot Fake News Detection → arXiv 2025
Ye Liu et al., University of Science and Technology of China & The Hong Kong University of Science and Technology
背景:假新闻在社交媒体上的广泛传播对社会造成严重后果,少样本假新闻检测面临理解模糊和信息稀缺挑战。
研究对象:提出双视角知识引导的少样本假新闻检测模型DKFND,从内外视角增强LLMs。
数据与模型:
- 数据:PolitiFact、GossipCop数据集。
- 方法:
- 检测模块:利用知识图谱识别新闻中的关键知识概念。
- 调查模块:从训练集和外部搜索引擎检索相关信息。
- 判断模块:评估检索信息的相关性和真实性。
- 决策模块:综合内外视角预测结果,生成最终决策。
评估:
- 性能:在PolitiFact和GossipCop数据集上,DKFND显著优于现有方法,尤其在低资源场景。
- 组件有效性:通过消融实验验证各组件对模型性能的贡献。
成果:提出有效少样本假新闻检测框架,通过内外视角信息检索和决策提升LLMs性能。
Multimodal Misinformation Detection using Large Vision-Language Models → arXiv 2024
Sahar Tahmasebi et al., TIB – Leibniz Information Centre for Science and Technology
背景:虚假信息的多模态传播(图像、文本、视频)对社会构成挑战,现有方法多依赖单一模态或假设证据已提供。
研究对象:提出基于大型视觉-语言模型(LVLM)的多模态证据检索和事实验证管道,解决证据检索和事实验证问题。
数据与模型:
- 数据:MOCHEG、Factify数据集。
- 方法:
- 证据检索:结合LLMs和LVLMs进行文本和图像证据的重排序,使用提示策略提取排名分数。
- 事实验证:基于检索到的证据,使用LVLM进行多模态事实验证,通过多数投票确定最终结果。
评估:
- 性能:在MOCHEG和Factify数据集上,提出的管道在证据检索和事实验证任务中均优于监督方法,展现出更好的泛化能力。
- 泛化能力:在跨数据集评估中,零样本方法表现出色,适应新领域和主题。
成果:提出零样本多模态虚假信息检测方法,通过改进证据检索和事实验证提升性能,为未来工作提供方向。
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs → arXiv 2024
Ronit Singhal et al., IIT Kharagpur & Stanford University
背景:社交媒体上的虚假信息传播需要自动事实核查系统,仅提供真实性标签是不够的,还需要提供支持证据。
研究对象:开发基于检索增强生成(RAG)和少样本上下文学习(ICL)的自动事实核查系统。
数据与模型:
- 数据:Averitec数据集。
- 方法:
- 文档检索:使用密集嵌入和FAISS进行文档检索。
- 证据提取:通过LLMs生成问题并从文档中提取答案作为证据。
- 最终分类:使用LLMs根据提取的证据进行真实性分类。
评估:
- 性能:系统在Averitec数据集上实现0.33的Averitec分数,比基线提高22%。
- 模型表现:不同LLMs在不同类别上的表现不同,Mixtral在开发集上表现最佳。
成果:提出仅需少量训练样本的自动事实核查系统,通过RAG和ICL提供基于证据的真实性预测。
1. A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity → IJCNLP 2023
Yejin Bang et al., The Hong Kong University of Science and Technology
背景:ChatGPT虽在多领域应用广泛,但其多任务、多语言、多模态能力及推理、幻觉问题的系统评估仍缺失,难以明确其适用边界。
研究对象:从多任务、多语言、多模态维度,全面评估ChatGPT的推理能力、幻觉问题及交互性对任务性能的提升作用。
数据与模型:
- 数据:23个公开数据集(覆盖摘要、机器翻译、情感分析等8类NLP任务)+ 自定义多模态国旗绘制数据集,部分任务采样30-200条样本确保多样性。
- 方法:
- 多任务评估:零样本设置下对比ChatGPT与零样本/微调SOTA模型在摘要(CNN/DM、SAMSum)、翻译(FloRes-200)等任务的性能。
- 多语言评估:按资源量将语言分为高(英语、中文)、中(印尼语)、低(爪哇语)、极低(布吉语)四类,测试情感分析与语言识别能力。
- 多模态评估:通过SVG代码生成国旗,测试文本到视觉的转换能力,含多轮编辑修正。
- 推理与幻觉:拆解推理为演绎/归纳/溯因等10类,用TruthfulQA等测试事实性,人工标注幻觉类型(内在/外在)。
评估:
- 多任务:9/13数据集上优于零样本SOTA,4类任务(如COVID虚假信息检测)超越微调模型,但任务导向对话(MultiWOZ2.2)性能较差(JGA 24.4%)。
- 多语言:对低资源语言理解优于生成(爪哇语情感分析准确率78% vs 翻译正确率6/30),非拉丁脚本语言生成能力弱(中文英译正确率14/30)。
- 多模态:需先生成文本描述才能生成合格SVG(无描述时A级国旗仅0%,有描述时Turn3达24%),形状/尺寸错误占比最高(68%)。
- 推理与幻觉:平均推理准确率63.41%,归纳推理(bAbI任务16零提示0/30)弱于演绎(19/30),外在幻觉(如翻译新增未验证信息)更常见。
- 交互性:多轮提示使摘要ROUGE-1提升8%,低资源翻译ChrF++提升2%。
成果:明确ChatGPT的优势(常识推理、高资源语言任务)与局限(低资源语言生成、复杂推理),提供多维度评估框架,开源评估代码。
2. Accuracy and Political Bias of News Source Credibility Ratings by Large Language Models → arXiv 2025
Kai-Cheng Yang & Filippo Menczer, Northeastern University & Indiana University
背景:LLMs作为信息筛选器(如AI搜索引擎)需评估信息源可信度,但不同LLM的可信度评级准确性及政治偏见尚未系统验证。
研究对象:审计9个主流LLM(OpenAI、Meta、Google)对新闻源可信度的评级准确性,及默认/党派角色设置下的政治偏见。
数据与模型:
- 数据:7523个有效新闻源(Lin等人的人类专家可信度评级+Tranco流行度排名),2683个含政治倾向的美国新闻源(Robertson等人的受众党派得分)。
- 方法:
- 可信度评级:提示LLM对域名按0-1打分(-1表示无信息),对比模型间一致性及与人类专家的相关性。
- 政治偏见测试:设置“民主党/共和党/无党派”角色,计算评级偏差(LLM评级-人类评级),分析对左/右倾源的偏好。
- 误差分析:随机抽取200个源,人工标注LLM的错误类型(如混淆相似域名)。
评估:
- 准确性:LLM间一致性高(平均Spearman ρ=0.79),但与人类专家仅中度相关(平均ρ=0.50);大模型(如GPT-4)更易因信息不足拒评(低流行度源拒评率高),小模型(如Llama 3.1 8B)错误率更高(20%+)。
- 政治偏见:默认设置下所有LLM均显自由派偏见(左倾源评级偏差更高);分配党派角色后,偏见显著强化(民主党角色左倾源偏差+0.12,共和党角色右倾源偏差+0.11),无党派角色偏见最弱。
- 误差缓解:融合多角色评级(如民主党+共和党平均)可提升准确性,但无党派角色已接近最优(与人类相关性最高)。
成果:揭示LLM作为信息筛选器的风险(低资源源知识缺失、政治偏见),提出通过角色设置与多视角融合降低偏差,为AI信息 curated 提供伦理参考。
3. Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models → arXiv 2024
Miaoran Li et al., Iowa State University & Microsoft Research
背景:传统事实核查依赖微调模型与标注数据,成本高且缺乏针对LLM生成文本的专用数据集,难以应对LLM幻觉问题。
研究对象:提出零样本即插即用框架SELF-CHECKER,用于LLM生成文本的事实核查,并构建专用数据集BINGCHECK。
数据与模型:
- 数据:
- BINGCHECK:396条Bing Chat对用户查询的响应,人工拆解为3840个待核查子声明,标注证据与可信度(支持/部分支持/反驳/无支持)。
- 基准数据集:FEVER(事实验证)、WiCE(维基引用验证),用于跨数据集验证。
- 方法:
- 四大模块:声明处理器(拆分复杂声明为子声明)、查询生成器(为子声明生成检索查询)、证据搜索器(从Bing/Wikipedia筛选证据句)、结论顾问(基于证据判断可信度),均通过Prompting GPT-3.5实现。
- 流程:政策代理动态调度模块,先拆分声明,再检索证据,最后聚合判断,支持多轮修正。
评估:
- BINGCHECK:整体准确率63.4%,证据检索F1 45.0%,优于直接提示(19.4%)、CoT(15.7%)等基线,但结论顾问易将部分支持误判为支持。
- FEVER:FEVER分数47.9%,准确率56.7%,证据检索F1 47.5%,弱于微调SOTA(BEVERS 77.7%)但优于零样本基线(Verify-and-Edit 53.9%)。
- WiCE:F1 47.7%,证据检索F1 60.5%,低于微调T5-3B(65.3%),主要瓶颈为证据遗漏。
成果:提出无微调事实核查框架,构建LLM生成文本专用核查数据集,为低成本、可扩展的事实核查提供新思路,开源代码与数据。
4. Explainable Claim Verification via Knowledge-Grounded Reasoning with Large Language Models → Findings of EMNLP 2023
Haoran Wang & Kai Shu, Illinois Institute of Technology
背景:现有事实核查依赖标注证据,且缺乏可解释的推理过程,难以辅助人工事实核查,LLM的零样本推理能力未被充分利用。
研究对象:提出FOLK框架,通过一阶逻辑(FOL)引导LLM拆分复杂声明,结合外部知识检索实现可解释的零样本事实核查。
数据与模型:
- 数据:3个挑战性数据集,各采样100条平衡样本:
- HoVER:多跳事实验证(2/3/4跳);
- FEVEROUS:含数值推理、文本-表格融合推理;
- SciFact-Open:开放域科学声明验证。
- 方法:
- FOL引导拆分:将声明转换为FOL谓词(如“Won(Lubabalo Kondlo, 银牌)”),每个谓词对应一个待验证子声明。
- 知识接地:基于谓词生成查询,通过SerpAPI调用Google检索Top1结果,避免LLM幻觉。
- 推理与解释:LLM基于FOL谓词与检索证据判断每个子声明真伪,聚合得出最终结论,并生成自然语言解释。
评估:
- 准确性:6/7任务上优于基线(Direct、CoT、Self-Ask、ProgramFC),HoVER 4跳任务F1 60.35%(超ProgramFC 7.43%),SciFact-Open F1 67.59%(超CoT 4.2%)。
- 可解释性:人工评估显示FOLK解释在覆盖度(MAR 1.57)、合理性(1.07)、可读性(1.27)上均优于基线,Krippendorff’s α≥0.52(合理性达0.71)。
- 泛化性:在小模型(Llama-30B)上仍有效,HoVER 3跳F1 50.88%,接近GPT-3.5水平(54.80%)。
成果:首次将FOL与知识接地结合用于事实核查,实现零样本可解释验证,为复杂声明(多跳、科学领域)的核查提供新范式,开源代码。

浙公网安备 33010602011771号