筑牢 AI 内容合规防线:数据万象 AIGC 合规标识

导语

随着人工智能技术的飞速发展,AI生成合成内容在图像、音频、文本等领域的真实度已逼近甚至超越人类感知的边界。然而,技术的“以假乱真”也带来新的社会风险:虚假新闻借助生成内容肆意传播,扰乱公共认知;合成声音、视频被用于精准诈骗,侵害个人财产;伪造信息更可能煽动舆情、冲击社会秩序。这些误用、滥用乃至恶意使用行为,可能会对公民和社会构成潜在威胁。

简介

1.1 AI 生成内容(AIGC)是什么?

AIGC 是由人工智能模型根据人类指令自动创造出的各类数字内容。它就像一个拥有庞大知识库和超凡学习能力的创意引擎,当我们用文字、图片或声音向其提出需求时,它便能基于所学模式,生成全新的、高质量的文本、图像、音视频甚至代码。

1

1.2 为什么要对 AIGC 进行规范要求?

在很多时候,AIGC 生成的内容,很容易混淆视听,真假难辨,需要进行规范和约束。

具体有以下几种常见的真实案例和场景:

  • 网络资讯不再“真实”
    首先,如果未规范 AI 生成内容,伪造内容,企业可能面临巨额罚款、产品下架、业务禁令甚至法律诉讼。例如,欧盟的《人工智能法案》对违规行为的处罚可高达全球年营业额的6%或3000万欧元。中国的《生成式人工智能服务管理办法》也明确要求服务提供者承担内容安全、数据保护等责任。

  • 你的创作变成“我的”
    其次,企业可能卷入复杂的版权侵权纠纷。例如,模型生成的图片、文本或代码若与受版权保护的作品高度相似,或者训练过程未经授权使用了大量版权材料,都可能被原作者起诉。

  • 黑色产业等内容广泛传播
    现在个人都能用 AI 做内容,如果有人用它造不健康内容,没规矩约束就会乱象丛生。立规矩不是不让 AI 发展,而是给它画条“安全线”:哪些内容不能生成,生成的内容要怎么管,都需要明确。

2

当 AIGC 生成的新闻稿差点混淆事实、AI 绘制的画作引发版权纠纷,这些真实发生的案例,凸显了为 AIGC 制定规范的迫切性!!!

数据万象正以技术赋能者的身份,为 AIGC 打标(添加专属标识)与检测(识别 AI 生成属性)提供坚实支持,成为规范 AIGC 发展、化解内容风险的重要力量。

1.3 如何为 AIGC 制定规范?

如何为 AIGC 制定规范,首先要给大家介绍一个概念:

元数据。

什么是元数据呢?其实就是数据 AI 生成内容的一种附加数据,它不承担核心信息的内容,但是可以作为数据管理的重要依据,就像一个身份证。

3
元数据示意图

元数据是我们为 AIGC 制定规范的一个桥梁,其主要作用在 AIGC 中“塞入”一些可管控和追溯的标识,这些标识用于规范和管理 AIGC 生成物的来源。因此,AIGC 中的元数据,更像是 AIGC 的身份证,对 AIGC 进行规范,也是对 AIGC 中的标识进行规范和约束。

1.4 如何为 AIGC 的"标识"进行规范 ?

元数据标识字段规范旨在关注以下五个问题:

4
AIGC 元数据字段规范图

目前,全球尚未形成一个统一的强制性标准,但已经涌现出多个具有广泛影响力的主流规范与框架。

C2PA 规范:由 Adobe、微软、英特尔、索尼等科技巨头联合创立。

C2PA 表示,该标准将允许内容创建者和编辑者创建无法秘密篡改的媒体内容。也允许他们有选择性地披露关于谁创建或更改了数字内容以及如何更改的信息。平台可以定义与每种类型的资产相关联的信息——例如,图像、视频、音频或文本,以及如何呈现和存储这些信息,以及如何识别篡改证据。

C2PA 规范核心主要包含以下几部分:

5
C2PA 元数据规范图

基于元数据的国内规范:2025年3月7日,我国互联网信息办公室联合工业和信息化部、公安部、国家广播电视总局正式发布《人工智能生成合成内容标识办法》,正式出台了一系列针对元数据字段的规范条文。

6
国内规范元数据图

数据万象使用到的元数据标识字段:

参数 含义 类型 是否必选
Label AIGC 元数据中的Label字段,用于表示内容是否为AI生成合成的。 String
ContentProducer AIGC 元数据中的ContentProducer字段,用于表示AI生产方的业务标识。 String
ProduceID AIGC 元数据中的ProduceID字段,用于表示AI生产方的文件标识。 String
ReservedCode1 AIGC 元数据中的 ReservedCode1字段,用于表示AI生产方提供的防止数据篡改的标识。 String
ContentPropagator AIGC 元数据中的 ContentPropagator 字段,用于表示 AI 传播方的业务标识。 String
PropagateID AIGC 元数据中的 PropagateID 字段,用于表示AI传播方的文件标识。 String
ReservedCode2 AIGC 元数据中的 ReservedCode2字段,用于表示 AI 传播方提供的防止数据篡改的标识。 String

理解了“为何需要”,我们再来解码技术上“如何实现”图片、音视频和文档的 AIGC 打标与检测全流程。

如何为 AIGC 元数据添加标识

数据万象现有的一些元数据技术原理和实现步骤:

7
不同元数据格式嵌入方式概览图

2.1 图片元数据合规实现及技术原理

元数据打标,图片编码时嵌入

目前主流的图片元数据嵌入,包含两种形式,EXIF 嵌入和 XMP 嵌入。选择 EXIF 形式嵌入举例,首先,在图片生成后,系统会收集所有需要打标的元数据,并按照上述映射规范,封装成一个 EXIF 数据包。

EXIF 数据包会包含写入的所有元数据内容, 以 JSON 格式传入。

选用 EXIF:EXIF 旨在可交换图像文件格式,包含图片的来源、拍摄条件、设备信息等背景信息。EXIF 具有广泛兼容性,几乎所有操作系统、图片查看器、浏览器和社交媒体平台都原生支持读取 EXIF;强嵌入性:元数据是文件的一部分,不易在常规传输中丢失;标准化:是一个成熟、通用的工业标准,易于实现和解析;轻量级:增加的元数据体积非常小,几乎不影响图片加载速度。

选用 XMP:可灵活嵌入创作标识、权属信息、编辑记录等多元内容,不仅能在格式转换、跨平台传输中稳定保留关键数据,为版权溯源与合规管理提供可靠支撑,还支持自定义字段适配图片、音频、视频等各类 AIGC 场景。

元数据空间内提取元数据

整个检测过程本质是一个针对图像文件格式的解析、提取和模式识别的过程。由于提取和打标是两个相反的步骤,这里不赘述详细流程。

图片元数据提取流程:读取文件二进制流--> 遍历文件段--> 解析 TIFF 头结构--> 遍历 IFD 并读取标签--> 解码标签值

具体的底层实现逻辑与步骤,此处不做展开,如需深入了解,可检索元数据提取流程查看底层具体实现步骤。

2.2 音视频元数据合规实现及技术原理

XMP 是什么?如何在 AIGC 合规中使用?

XMP 是由 Adobe 公司建立并推动的一项开放的元数据标准。其全称为“可扩展元数据平台”。XMP 使用“命名空间”来管理元数据。每个命名空间下可以定义自己独有的属性。

我们可以为 AIGC 内容创建一个专属的命名空间,在其中自由定义任何需要的字段,具体嵌入步骤如下。

图中可以看到,有两种方式对 xmp 包进行写入,分别为内嵌和附属的形式,二者各有特点。

内嵌:将 XMP 数据包写入文件内部的特定区域,与内容数据融为一体,这样会得到一个单一的文件,持久性比较好,容易复制转发,不易丢失;

附属:创建一个独立的 .xmp 文件,与主体文件内容分离,得到一个 image.jpg 和 image.xmp, 持久性不太好,容易丢失,但是其独立的特性,无需要去触动原始的文件,即可达到更新元数据的目的。

这里更推荐内嵌的方式,在添加标识后可以有效的保证其持久性,从而更好的溯源以及管理。

为什么选择用 XMP 嵌入?在音视频方面?有哪些优势?

8

xmp 嵌入优势图

XMP 为 AIGC 音视频内容提供了一种强大、灵活、面向未来的元数据管理方案。 特别适合承载 AIGC 复杂且动态的生成信息,是实现高级别内容追溯、版权管理和自动化处理的核心技术基础。

XMP 元数据提取

提取音视频文件中 XMP 元数据的详细步骤主要分为以下三个阶段:定位与读取、解析与验证、处理与应用

首先,接收一个音视频文件路径或文件流作为输入,检查文件格式是否支持(如 MP4、MOV、AVI、WAV 等)。解析文件容器,在其元数据区定位内嵌的 XMP 数据;二是在文件同一目录下检查是否存在同名的 .xmp 附属文件,只要找到,就会将原始的 XMP 数据包完整地读取到内存中。

其次,在成功获取原始数据后,会使用 XML 解析器将文本数据转换为结构化的对象模型,并开始识别其中使用的各种 XMP 命名空间,例如用于基础信息的、用于描述视频属性的,以及最为关键的、AIGC 的自定义命名空间。

最后,工具会对提取出的元数据进行后处理与整合。完成处理后,这些数据会被序列化为标准 JSON 格式,最终交付给上层应用,用于在用户界面中清晰展示。

2.3 文档元数据合规实现及技术原理

文档格式不同,其嵌入方式也存在差异。这里分别介绍不同格式文件的处理方式。

PDF 文件元数据嵌入:

对于 PDF 文件,通常采用文档信息字典XMP 两种方式嵌入。

传统信息字典:是 PDF 标准最初定义的方式,位于文档尾部的 Trailer 中,其极度标准化,所有 PDF 阅读器都支持查看。

XMP 嵌入方式:传统信息字典嵌入方式非常容易被任何 PDF 编辑软件修改或清除,XMP 可以在 PDF 的根对象(/Catalog)中增加一个 /Metadata 引用,指向一个包含完整 XMP 数据包的流对象,可以定义任意复杂、结构化的元数据。

其两种方式嵌入:

由于传统信息字典方式存在很大的局限性,其字段固定,无法扩展,无法存储复杂的生成参数的缺点,我们更推荐【方式二】去实现。

通过自定义命名空间的方式,在 AIGC 中嵌入我们声明的参数变量内容。

PPT 文件元数据嵌入:

首先,.docx, .pptx, .xlsx 文件本质上是一个 ZIP 压缩包,里面包含了用 XML 描述的文档内容、样式、媒体和元数据。对于这几种格式文件,需要对其不同内容文件进行修改,以达到嵌入元数据的目的。

其次,根据不同的文档格式选择相应的嵌入策略。对于 Word 文档,通过修改 core.xml 文件写入标准属性,并在 custom.xml 中添加自定义的 AIGC 参数;PowerPoint 采用相似的方式,在演示文稿的属性部分记录生成信息;Excel 则在工作簿属性中存储基础元数据,并通过自定义字段保存数据生成参数。所有 Office 文档本质上都是 ZIP 格式的容器,元数据以 XML 形式存储在 docProps 目录下的特定文件中,嵌入过程实质上是向这些 XML 结构中写入规划好的属性和值。

文档元数据提取

文档元数据提取通过解析文档内部针对不同格式文档数据,采取两种不同方式实现。

文档元数据提取是通过系统化方法从各类文档格式中读取结构化信息的完整流程。其核心价值在于构建数字内容的溯源体系,为文档管理、版权保护和内容验证提供数据支撑。

数据万象合规支持,如何接入

如何快速接入和体验 AIGC 合规的能力,数据万象提供了三种方式。

3.1 API 形式助力快速接入

以图片元数据添加和检测示例,给大家介绍。

图片元数据添加示例:

// AIGC图片标识 Node.js Demo
// 基于腾讯云COS SDK实现
function handleAIGCMetadata() {
  // AIGC元数据配置
  const metadataFields = {
    label: "1", // 属于AIGC内容
    contentProducer: "Your-AI-Studio",
    produceID: "DEMO-2024-001",
    contentPropagator: "Your-COS-Service",
    propagateID: "PROP-2024-001",
    reservedCode1: "ZGVtbw==", // base64编码的"demo"
    reservedCode2: "dGVzdA==" // base64编码的"test"
  };
  // Base64编码函数
  const base64Encode = (str) => {
    if (!str) return '';
    return Buffer.from(str, 'utf8').toString('base64');
  };
  // 构建AIGC元数据规则
  let rule = 'imageMogr2/AIGCMetadata';
  rule += `/Label/${base64Encode(metadataFields.label)}`;
  rule += `/ContentProducer/${base64Encode(metadataFields.contentProducer)}`;
  rule += `/ProduceID/${base64Encode(metadataFields.produceID)}`;
  rule += `/ContentPropagator/${base64Encode(metadataFields.contentPropagator)}`;
  rule += `/PropagateID/${base64Encode(metadataFields.propagateID)}`;
  rule += `/ReservedCode1/${metadataFields.reservedCode1}`;
  rule += `/ReservedCode2/${metadataFields.reservedCode2}`;
  // 使用COS SDK发送请求
  cos.request(
    {
      Bucket: 'your-bucket-name-1250000000', // Bucket 格式:test-1250000000,必填
      Region: 'your-region', // Bucket所在地域,比如ap-beijing,必填
      Key: 'samples/aigc/demo.jpg', // 存储在桶里的对象键,必填
      Method: 'POST',  // 固定值
      Action: 'image_process',  // 固定值
      Headers: {
        // 通过 imageMogr2 接口使用AIGC元数据功能
        'Pic-Operations': JSON.stringify({
          is_pic_info: 1,
          rules: [{ 
            fileid: "aigc_processed_" + Date.now() + ".jpg", 
            rule: rule 
          }],
        }),
      },
    },
    function (err, data) {
      if (err) {
        return;
      }
      // 解析处理结果
        console.log('处理后的文件信息:', data);
      }
    },
  );
}
// 使用示例
handleAIGCMetadata();
module.exports = {
  handleAIGCMetadata
};

图片元数据检测示例:

// AIGC图片元数据检测 Node.js Demo
// 检测图片中是否包含符合《人工智能生成合成内容标识办法》的元数据
function detectAIGCMetadata() {
  const demoImage = {
    key: 'samples/aigc/aigc_img.jpg',
    url: 'https://your-bucket.cos.region.myqcloud.com/samples/aigc/aigc_img.jpg'
  };
  // 使用COS SDK发送检测请求
  cos.request(
    {
      Bucket: 'your-bucket-name-1250000000', // Bucket 格式:test-1250000000,必填
      Region: 'your-region', // Bucket所在地域,比如ap-beijing,必填
      Key: demoImage.key, // 存储在桶里的对象键,必填
      Method: 'GET',  // 检测使用GET方法
      Query: {
        'ci-process': 'ImageAIGCMetadata' // 固定参数,用于AIGC元数据检测
      }
    },
    function (err, data) {
      if (err) {
        console.error('AIGC检测失败:', err);
        return;
      }
        console.error('检测结果:', data);
    }
  );
}
// 使用示例
detectAIGCMetadata();
module.exports = {
  detectAIGCMetadata
};

此处给了一个简单的图片 AIGC 元数据标识添加和检测的 Demo,如想自己实现和快速接入,可以参考添加AIGC图片元数据标识

其他音视频、文档等 AIGC 元数据标识添加和检测内容, 数据万象均已支持,可以详见对象存储 AIGC 相关文档,图片元数据处理

3.2 数据万象工作流形式添加

数据万象控制台中支持以工作流形式完成图片、音视频和文档的 AIGC 元数据打标功能。

控制台中的工作流是一个很强大的功能,支持多种数据通过一个可定制的工作流模板,为 AIGC 内容打标与检测提供自动化、标准化的合规支持。用户可基于自身业务场景,快速创建专属处理流程。

了解了原理,我们不妨亲手一试。以下将通过控制台的工作流配置,演示完成 AIGC 内容合规的具体操作步骤。

创建工作流

9
创建工作流图

在该页面中,可以清楚看到工作流中包含输入、输出及各种配置项,支持定制化处理流程。

选择对应数据类型

10
数据选择图

配置 AIGC 元数据添加字段

11
AIGC 元数据配置图

如上图所示,支持自定义元数据内容,并可设置输出桶和目标路径,从而实现 AIGC 元数据批量化、自动化打标。此外,系统也为图片与音视频分别提供了相应的处理流程,以适配不同类型媒体的元数据打标需求。

图片及音视频工作流

12
图片处理工作流图

针对图片处理,我们进一步融合了更丰富的图片处理能力。可在流程中创建模板,不仅能添加 AIGC 元数据,还可进行多项图片配置,充分体现控制台工作流在图片处理方面的灵活性。

13
图片处理配置图

图中展示了 AIGC 元数据添加等相关能力。因功能内容较为丰富,可前往控制台实际体验工作流的完整处理能力。您可通过以下链接进入控制台体验完整能力。

对于音视频 AIGC 元数据的处理能力,选择音视频相关处理,即可完成打标工作。

14
音视频处理 AIGC 元数据图

3.3 数据万象体验馆

数据万象体验馆已全面支持图片、音视频及文档的 AIGC 合规打标和检测,如需体验相关功能,欢迎前往数据万象体验馆进行操作。

在图片像素里嵌入隐形水印元数据,把合成标签、合成服务提供者、制作编号、传播编号、服务传播编号等这些细节藏进去,为安全合规提供保障。以下是视频元数据添加效果图。

15
视频元数据添加效果图

采用隐式元数据的方式,将 AIGC 生成过程中产生的关键参数自然融入文档的常规属性和内容结构中。以下是视频元数据检测效果图。

16
视频元数据检测效果图

访问数据万象体验馆及腾讯云控制台亲身体验 AIGC 合规流程。

posted @ 2025-12-26 16:28  云存储小天使  阅读(3)  评论(0)    收藏  举报