详解大模型安全评估实操流程

image

image

当前,生成式人工智能大模型快速普及,其安全可控性直接关系国家安全、社会公共利益及公民合法权益。根据国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》(国家互联网信息办公室令第15号)第十七条明确要求,“提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续”。对于需完成网信办备案的企业及相关工作人员而言,规范开展大模型安全评估是备案通过的核心前提,也是履行合规义务的关键环节。本文结合现行政策要求、行业实操标准及权威案例,详细拆解大模型安全评估的全流程、核心要点及注意事项,搭配真实有效引用,助力备案相关人员快速掌握评估方法、规避备案风险。

一、大模型安全评估的政策基石——明确备案评估的合规边界

大模型安全评估并非独立流程,而是紧密围绕网信办备案要求,以国家相关法律法规、部门规章及行业标准为核心依据,形成“政策引领、标准支撑、实操落地”的完整体系。备案相关人员需先明确评估的政策边界,确保评估工作合法合规、贴合监管要求。

(一)核心政策依据(必备引用,备案审核重点核查)

  1. 《生成式人工智能服务管理暂行办法》(2023年8月15日施行):作为大模型备案及安全评估的纲领性文件,明确了评估的适用范围、核心要求及责任主体。其中第七条、第八条、第十四条分别对训练数据安全、数据标注规范、生成内容管控作出具体规定,要求“使用具有合法来源的数据和基础模型”“采取有效措施提高训练数据质量”“发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施”,这些均为安全评估的核心核查要点。

  2. 《生成式人工智能服务安全基本要求》(GB/T 41819-2022):该国家标准明确了生成式人工智能服务的安全要求,涵盖训练数据安全、模型安全、生成内容安全、隐私保护、供应链安全等5大维度,是安全评估的具体操作准则。其中明确要求“防范模型被用于编写恶意软件、制造生物武器等风险”,同时对语料抽检合格率、敏感问题拒答率等给出量化指标,是备案评估中技术核查的核心依据。

  3. 《网络安全法》《数据安全法》《个人信息保护法》:三者共同构成大模型安全评估的底层法律框架。《网络安全法》明确网络运营者的安全保护义务,《数据安全法》要求开展数据处理活动应当符合数据安全国家标准,《个人信息保护法》则对训练数据中涉及的个人信息处理、匿名化处理作出严格规定,三者均为安全评估中“合规性核查”的必查内容,也是备案材料中需重点佐证的合规依据。

  4. 国际参考标准:世界数字技术院(WDTA)发布的《生成式人工智能应用安全测试标准》《大语言模型安全测试方法》两项国际标准,虽非我国备案评估的强制性依据,但其中提出的“安全风险分类、攻击分类分级方法、测试程序”等内容,可作为我国备案评估的补充参考,尤其适用于涉及跨境服务、外资背景的大模型备案评估,有助于提升评估的全面性和严谨性。

(二)评估与备案的核心关联

根据网信办备案的监管逻辑,大模型安全评估是备案的“前置条件”——未完成安全评估或评估不合格的,无法提交备案申请;评估合格后,需将评估报告作为核心材料提交至属地网信办,纳入备案审核范围。同时,《生成式人工智能服务管理暂行办法》第十九条明确规定,“有关主管部门依据职责对生成式人工智能服务开展监督检查,提供者应当依法予以配合,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助”,这意味着安全评估结果不仅是备案通过的关键,也是后续监管检查的重要依据。

需特别注意:备案实行分类分级管理,高风险场景(涉及新闻出版、影视制作等领域的模型)需同步满足行业专项规定,其安全评估标准更为严格;低风险场景(企业内部使用的非公众服务)可豁免备案,无需开展对应安全评估。

二、大模型安全评估全流程实操——适配网信办备案的步骤拆解

结合网信办备案的审核流程(前期准备-属地申报-技术评审-国家复审-公示生效),大模型安全评估需同步推进,形成“自查-检测-整改-出具报告”的闭环流程,全程需留存完整记录,作为备案材料的核心支撑。整个评估流程建议与备案前期准备同步启动,确保评估结果可直接用于备案申报,缩短备案周期(备案全流程通常需3-6个月,评估流程建议控制在1-2个月)。

第一步:前期筹备——明确评估范围与梳理核心材料

备案相关人员需先明确评估范围,避免遗漏备案审核重点,同时梳理评估所需的核心材料,为评估工作奠定基础。

  1. 明确评估范围:结合《生成式人工智能服务管理暂行办法》第二条规定,评估范围需覆盖“向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务”,具体包括:训练数据(来源、标注、清洗等)、模型本身(架构、训练框架、优化过程等)、生成内容(合规性、准确性、安全性等)、隐私保护(用户数据收集、存储、使用等)、供应链安全(外采软件/硬件、开源协议等)、应急响应机制(数据泄露、有害内容传播等场景的处置流程)六大核心模块。

  2. 特殊场景补充:多模态产品(同时具备文生文、文生图功能)需分别开展评估,提交两份评估测试题集;外资背景企业需额外评估境外语料安全,提供境外语料安全承诺书(需公证处认证);涉及跨境数据流动的,需同步评估数据出境安全,提交《数据出境安全评估报告》。

  3. 梳理核心材料:包括模型研发说明(架构图、训练框架、算力资源清单等)、训练数据证明(来源授权文件、采集协议、清洗记录等)、数据标注规范及质量评估报告、用户服务协议及隐私政策、应急响应预案、开源组件合规证明、第三方检测机构资质文件(如委托第三方检测)等,这些材料既是评估的依据,也是后续备案需提交的核心材料。

第二步:自主评估【如不做自评估,也可以选择下面的第三方评估】——对照标准开展全面自查(备案前期准备核心环节)

自主评估是安全评估的基础,也是备案审核中“安全自评估报告”的核心来源,需由企业组建“法务+技术+运营”跨部门合规团队,对照核心标准开展全面自查,确保无合规漏洞。自查过程需留存完整记录,形成《安全自评估报告》,作为备案核心材料之一。

自查核心要点(贴合备案审核重点,附量化标准):

  1. 训练数据安全自查(依据《生成式人工智能服务安全基本要求》):① 来源合规:自采数据需提供《网络数据采集授权书》,商业语料需提供采购合同,开源语料需提供合规授权文件,严禁使用未授权爬取的网页数据;② 质量达标:人工抽检语料,合格率需≥96%;技术筛查10%语料,合格率≥98%;③ 标注规范:制定清晰的标注规则,对标注人员进行培训,抽样核验标注内容准确性,杜绝低俗、歧视性标注内容;④ 境外语料管控:境外语料占比不得超过30%,需提供境外语料安全承诺书。

  2. 模型安全自查(依据《大语言模型安全测试方法》):

    1. ① 敏感问题拦截:对敏感问题进行测试,拒答率需≥95%;非拒答测试拒答率≤5%;

    2. ② 架构安全:披露模型架构、训练框架等技术细节,确保架构合理、算力资源可追溯(自研算力需提供设备清单);

    3. ③ 优化过程合规:模型优化过程需留存完整记录,严禁通过违规训练优化模型生成有害内容[2]。

  3. 生成内容安全自查(依据《生成式人工智能服务管理暂行办法》第四条):

    1. ① 合规性:生成内容不得包含煽动颠覆国家政权、宣扬恐怖主义、民族歧视、暴力色情等法律禁止内容;

    2. ② 准确性:避免生成虚假信息,尤其是新闻、医疗、金融等专业领域,需确保内容准确可靠;

    3. ③ 标注规范:按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识;

    4. ④ 人工复核:生成内容人工复核比例不低于10%,留存复核记录,整改不合格内容[4]。

  4. 隐私保护自查(依据《个人信息保护法》及GB/T 35273《个人信息安全规范》):

    1. ① 数据收集:不得收集非必要个人信息,收集个人信息需取得用户同意;

      ② 数据存储:用户数据需匿名化处理,存储符合安全标准,严禁非法留存能够识别使用者身份的输入信息和使用记录;

      ③ 数据使用:明确用户输入数据的使用范围及授权期限,提供关闭授权、删除数据的路径,不得非法向他人提供用户数据;

      ④ 投诉处理:建立个人信息相关投诉、举报机制,及时受理、处理用户关于查阅、复制、删除个人信息的请求[3]。

  5. 供应链与应急响应自查:

    1. ① 供应链安全:外采软件/硬件需提供安全审查报告,开源组件需核查开源协议合规性,避免知识产权侵权;② 应急响应:制定完善的应急响应预案,涵盖数据泄露、有害内容传播、模型故障等场景,明确处置流程、责任分工,开展模拟演练并留存记录,确保应急响应机制有效。

第三步:第三方检测【可选,也可根据第二步做自评估】——强化评估公信力(备案技术评审重点)

根据网信办备案审核要求,自主评估完成后,建议委托具备相关资质的第三方检测机构开展检测(部分地区备案要求必须提供第三方检测报告),第三方检测报告是备案技术评审环节的核心佐证材料,可提升评估结果的公信力。

  1. 第三方机构选择标准:需具备《检验检测机构资质认定证书》(CMA),且检测范围涵盖生成式人工智能安全检测,优先选择参与过国家大模型安全评估、备案检测的机构(如中国电子技术标准化研究院、中国信通院、蚂蚁安全实验室等)。

  2. 检测核心内容:第三方检测需围绕自主评估的六大模块,采用“技术检测+人工核查”相结合的方式,重点检测自主评估中未覆盖的细节的合规性、量化指标的达标情况,以及模型的抗攻击能力(按照《大语言模型安全测试方法》提出的四种攻击强度分类标准开展测试)。

  3. 检测报告要求:检测报告需明确检测依据、检测方法、检测结果、整改建议(如有),加盖检测机构公章,明确检测日期,检测结果需明确“合格”“不合格”“限期整改后合格”,不合格项需明确整改要求及整改期限,整改完成后需重新检测,确保检测结果合格,方可用于备案申报。

第四步:问题整改——闭环优化,确保符合备案要求

针对自主评估或第三方检测中发现的问题,需建立整改台账,明确整改责任人、整改措施、整改期限,形成“发现问题-整改落实-复核验证”的闭环,整改完成后留存完整的整改记录,作为备案材料的补充支撑,避免因整改不到位导致备案驳回。

常见问题及整改方向(结合备案驳回常见原因):

  1. 语料问题:未建立知识产权投诉渠道、开源语料授权文件缺失——补充完善知识产权投诉处理流程,获取开源语料合规授权文件,重新抽检语料确保达标;

  2. 测试缺陷:测试题集未覆盖《生成式人工智能服务安全基本要求》附录A的全部31类风险——补充测试题集,确保每类风险至少200条测试题,覆盖日常对话、专业领域问答、敏感问题诱导等多场景;

  3. 协议漏洞:服务协议未明确用户数据删除权、未设置未成年人保护条款——修订服务协议,补充用户数据删除、未成年人保护相关条款,明确双方权利义务;

  4. 生成内容问题:存在虚假信息、敏感内容——优化模型训练语料,完善关键词拦截机制(拦截关键词库≥10000),提升人工复核比例,整改后重新开展检测[4]。

注意:备案审核中,未通过的企业需在属地网信办规定的时间内完成整改并重新提交,不要逾期,因此评估阶段的整改工作需高效推进,避免影响备案进度。

第五步:出具报告——规范编制,适配备案材料要求

安全评估完成后,需编制《大模型安全评估报告》,该报告是网信办备案的核心材料之一,需规范编制、内容完整,明确体现评估全过程及评估结果,确保备案审核人员可清晰核查评估的合规性、全面性。

报告核心内容(必备模块,缺一不可):

  1. 评估概况:明确评估对象(大模型名称、版本、研发单位等)、评估范围、评估依据(列明本文第一部分提及的核心政策、标准)、评估时间、评估团队(自主评估团队、第三方检测机构);

  2. 评估过程:详细描述自主评估、第三方检测的流程、方法、核查内容,留存自查记录、检测原始数据、模拟演练记录等附件;

  3. 评估结果:明确评估结论(合格/整改后合格),量化呈现各项指标达标情况(如语料合格率、敏感问题拒答率等),列明未发现的问题、发现的问题及整改完成情况;

  4. 合规承诺:明确承诺大模型符合国家相关法律法规、部门规章及行业标准,评估结果真实有效,愿意接受网信办及相关主管部门的监督检查,如存在违规行为,自愿承担相应法律责任;

  5. 附件材料:包括第三方检测报告、训练数据来源证明、数据标注规范、应急响应预案、服务协议及隐私政策、整改记录等,附件需加盖企业公章,确保真实有效[3]。

三、备案审核中评估报告的重点核查要点——规避驳回风险

网信办备案审核(属地初审、技术评审、国家复审)中,对安全评估报告及评估相关材料的核查极为严格,备案相关人员需重点关注以下核查要点,提前规避驳回风险,结合典型反面案例吸取经验教训。

(一)属地初审核查要点(形式+合规预审)

属地网信办主要开展形式审核和合规预审,重点核查:

① 评估报告格式规范性、内容完整性,附件材料齐全(如扫描件不可错位、加盖公章);

② 评估依据的合规性,是否涵盖核心政策、标准;

③ 境外语料占比(不得超过30%)、开源协议合规性,外资企业是否提供境外语料安全承诺书(公证处认证);

④ 多模态产品是否提交两份评估测试题集。

(二)技术评审核查要点(专家评估核心)

专家评审环节,重点核查评估的真实性、全面性及技术合规性,核心要点包括:

① 训练数据的合法性、质量达标情况,是否留存完整的采集、清洗、标注记录;

② 模型安全管控能力,敏感问题拦截、有害内容过滤的有效性,模型架构及优化过程的可追溯性;

③ 生成内容的合规性、准确性,人工复核机制的有效性;

④ 隐私保护措施的落地情况,用户数据处理是否符合相关法律规定;

⑤ 应急响应机制的可行性,模拟演练记录是否完整;

⑥ 第三方检测机构的资质,检测方法、检测结果的合理性。

(三)国家复审核查要点(跨部门联审)

网信办联合公安、工信等部门开展综合复审,重点核查:

① 供应链安全,外采软件/硬件的安全审查报告,开源组件的知识产权合规性;

② 知识产权,训练语料的版权证明、基础模型的授权文件;

③ 特殊场景合规性,涉及跨境数据流动的,需核查《数据出境安全评估报告》;涉及新闻出版、医疗、金融等特殊领域的,需核查行业专项合规证明;

④ 评估整改的有效性,前期发现的问题是否彻底整改,整改记录是否完整。

四、评估工作的注意事项——助力备案高效通过

  1. 真实性是核心:评估过程、评估结果、附件材料必须真实有效,严禁伪造检测报告、自查记录、授权文件等,网信办备案审核中会对材料的真实性进行核查,一旦发现伪造,将直接驳回备案申请,并记入企业信用档案,影响后续备案及业务开展[4]。

  2. 同步推进评估与备案:安全评估工作需与备案前期准备、材料梳理同步启动,避免评估完成后再补充备案材料,缩短备案周期;评估报告的编制需贴合备案材料要求,确保内容可直接用于备案申报,减少材料修改工作量。

  3. 强化持续合规:大模型安全评估并非一次性工作,备案通过后,仍需持续开展安全评估,因为大模型的训练数据、优化过程、应用场景可能发生变化,需及时排查新增风险。同时,根据《生成式人工智能服务管理暂行办法》第十四条要求,发现违法内容或违规行为的,需及时整改并向主管部门报告,确保持续符合备案要求及安全标准,避免备案被注销或面临处罚。

  4. 借助行业资源提升评估质量:可加入中国人工智能产业发展联盟等行业组织,获取政策解读、技术支持及评估经验;参考蚂蚁集团、百度、腾讯等企业的大模型安全治理实践,其相关经验被纳入国际标准,可助力提升评估的规范性和全面性。

五、总结

大模型安全评估是网信办备案的核心前提,也是企业履行合规义务、防范安全风险的关键举措。对于备案相关人员而言,需牢牢把握“政策引领、标准支撑、实操落地、真实合规”的核心原则,明确评估的政策依据、全流程实操步骤,重点关注训练数据安全、模型安全、生成内容安全、隐私保护等核心模块,规范编制评估报告、留存完整评估记录,同时关注地方差异化要求、借鉴典型案例经验,规避备案驳回风险。

当前,我国大模型监管体系逐步完善,备案制度已形成“事前准入+事中监管+事后追溯”的全链条治理体系,安全评估的规范性、全面性直接关系备案效率及企业后续合规运营。随着《生成式人工智能应用安全测试标准》《大语言模型安全测试方法》等国际标准的落地,以及我国相关政策、标准的持续优化,大模型安全评估的标准将更加精细化、规范化。备案相关人员需持续学习最新政策、标准,提升评估实操能力,确保大模型安全评估工作贴合监管要求,助力备案高效通过,推动大模型在安全、合规的前提下创新发展。
image

posted @ 2026-01-26 15:10  Cyobobo  阅读(20)  评论(0)    收藏  举报