通用AI工具UNITE可检测无面部视频深度伪造
Google's deepfake hunter sees what you can’t—even in videos without faces
UNITE是一种开创性的人工智能工具,可以发现甚至最令人信服的假视频——不仅仅是修改过的面孔,还有完全伪造的场景。
在一个被操纵的视频可以传播虚假信息、欺凌他人并煽动伤害的时代,加州大学河滨分校的研究人员创建了一个强大的新系统来揭露这些伪造品。
电气和计算机工程教授Amit Roy-Chowdhury和博士生Rohit Kundu(两人均来自加州大学河滨分校)与某中心的科学家合作,开发了一个能够检测视频篡改的人工智能模型——即使操纵行为远远超出了面部替换和语音修改。他们的新系统被称为通用网络用于识别篡改和合成视频(UNITE),它通过检查不仅仅是面部而是完整的视频帧(包括背景和运动模式)来检测伪造品。这种分析使其成为首批能够识别不依赖于面部内容的合成或篡改视频的工具之一。
“深度伪造已经进化了,”Kundu说。“它们不再仅仅是关于面部替换了。人们现在正在使用强大的生成模型创建完全虚假的视频——从面部到背景。我们的系统就是为了捕获所有这些而设计的。”
UNITE的开发正值文本到视频和图像到视频生成技术在网上广泛可用。这些人工智能平台使几乎任何人都能够制作出极具说服力的视频,给个人、机构乃至民主本身带来严重风险。
“这些工具变得如此容易获得,这很可怕,”Kundu说。“任何具有中等技能的人都可以绕过安全过滤器,生成公众人物说他们从未说过的话的逼真视频。”
Kundu解释说,早期的深度伪造检测器几乎完全专注于面部线索。
“如果帧中没有面部,许多检测器根本不起作用,”他说。“但虚假信息可以以多种形式出现。改变场景的背景可以同样轻易地歪曲事实。”
为了解决这个问题,UNITE使用基于Transformer的深度学习模型来分析视频片段。它可以检测到细微的空间和时间不一致——这些线索往往被以前的系统所遗漏。该模型借鉴了一个称为SigLIP的基础AI框架,该框架提取不绑定于特定人或物的特征。一种新颖的训练方法,称为“注意力多样性损失”,促使系统监控每帧中的多个视觉区域,防止其仅专注于面部。
其结果是一个能够标记一系列伪造品的通用检测器——从简单的面部替换到复杂的、完全由AI生成的、没有任何真实素材的视频。
“这是一个处理所有这些场景的模型,”Kundu说。“这就是它的通用性所在。”
研究人员在高水平的2025年计算机视觉与模式识别会议上展示了他们的发现。他们的论文由Kundu领导,题为“迈向通用合成视频检测器:从面部或背景操纵到完全AI生成的内容”,概述了UNITE的架构和训练方法。
与某中心的合作提供了访问大规模数据集和计算资源的机会,这些资源是训练模型处理广泛的合成内容(包括由文本或静态图像生成的视频)所必需的——这些格式常常让现有的检测器束手无策。
尽管仍在开发中,UNITE可能很快在防御视频虚假信息方面发挥至关重要的作用。潜在用户包括社交媒体平台、事实核查机构和新闻编辑室,他们致力于防止被操纵的视频病毒式传播。
“人们应该有权知道他们所看到的是否真实,”Kundu说。“随着AI在伪造现实方面变得更好,我们也必须在揭示真相方面变得更好。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号