h2oGPTe 大模型安全防护能力洞察

这篇文章信息量很大,特别是提到了 h2oGPTe 平台融合了预测型 AI 和生成式 AI,并拥有强大的新功能,如多代理系统、模型风险管理和多模态分析等。

您特别关注其**安全防护(Guardrails and PII controls)**的具体实现方式。新闻稿中提到,这项功能允许企业“控制响应边界并保护敏感信息”,并且可以通过“可配置的安全机制”来遵守严格的政策和道德标准,使 AI 行为与企业和法规准则保持一致。

对 H2O.ai h2oGPTe 平台的安全防护功能(Guardrails and PII controls)进行了梳理和总结。

总的来说,h2oGPTe 的安全防护是一个多层面的系统,旨在确保大型语言模型(LLM)在企业环境中的使用是负责任、安全且合规的。它不仅仅是单一的功能,而是一套组合拳,为企业提供了精细化的管理能力 。

 

以下是其安全防护功能的具体实现方式:

  • 可定制的护栏 (Customizable Guardrails): 企业可以根据自身的需求和规定,在图形用户界面(GUI)中直接输入和设置自定义的护栏规则 。这些护栏可以有效抵御不当的提示(prompts)和有害的输出,确保模型的行为符合企业的价值观和安全标准 。

     

  • 个人身份信息(PII)的检测与脱敏: h2oGPTe 具备增强的 PII(个人身份信息)检测和编辑功能。这意味着系统可以自动识别并隐藏或移除数据中如姓名、电话号码、地址等敏感信息,从而在处理和分析数据时保护用户隐私。这一功能可以单独启用或禁用,为企业提供了灵活的控制选项。

     

  • 精细化访问管理与响应限制: 您提到的“fine-grained access management and scoped response restrictions”(精细化访问管理和范围化响应限制)是其核心优势。这意味着企业可以精确控制不同用户或系统对 AI 功能的访问权限。同时,可以限制 AI 生成内容的范围,确保其输出不会超出预设的、安全的边界。

     

  • 与模型风险管理(MRM)框架集成: 安全护栏是 h2oGPTe 更广泛的模型风险管理框架的一部分 。该框架通过自动化测试、持续的人工校准和反馈、以及可视化洞察等多种手段,全面评估和监控模型的可靠性、公平性和透明度,确保 AI 系统的稳健和可信 。

     

  • 通过 Python 客户端库进行编程访问: 对于开发者来说,H2O.ai 提供了名为 h2ogpte 的 Python 客户端库。开发者可以通过编程的方式,创建和配置包含自定义护栏和 PII 参数的 AI 应用集合(Collection),从而将安全控制深度集成到业务流程中。

     

总而言之,h2oGPTe 的安全防护体系通过提供可定制的规则、自动化的敏感信息处理、精细的权限与内容控制,并将其融入到全面的风险管理框架中,让企业在享受生成式 AI 带来的效率提升的同时,也能有效管理潜在的风险,满足合规性要求 

 

可定制的人工智能安全护栏

h2oGPTe 的 Guardrails 和 PII 控制提供细粒度的访问管理和范围响应限制,从而能够对输入和输出边界进行精确控制。 

这些可定制的保护措施可降低敏感环境中的风险,防止未经授权的访问,并确保人工智能响应符合企业政策和道德标准。

 

 

 

核心要点

  • 研究表明,h2oGPTe 的护栏(Guardrails)和个人身份信息(PII)控制功能通过阻止有害内容和保护敏感数据,增强了人工智能的安全性。
  • 这些功能很可能采用了如 Llama Guard 3 这样的模型来标记不安全的提示,并使用 Presidio 来检测 PII,同时为企业提供了可定制的选项。
  • 证据倾向于表明这些控制功能是高度可配置的,允许对 PII 进行脱敏处理,并通过正则表达式模式阻止有害输入。

护栏(Guardrails)概述

h2oGPTe 的护栏旨在防止生成有害或不当内容。它们会标记用户提示和 AI 输出中的特定实体,使用 Llama Guard 3 模型来识别和阻止不安全的内容。用户可以自定义监控哪些实体,例如“暴力犯罪”或“无差别武器”,并可以设置自定义的异常消息,如在标记违规时显示“检测到护栏违规”。

此外,其“提示护栏”(Prompt Guard)功能使用一个专门的提示护栏模型,来防御旨在绕过安全规则的“越狱”(JAILBREAK)提示。

个人身份信息(PII)控制详解

h2oGPTe 中的 PII(个人身份信息)控制功能专注于检测和管理敏感数据,以确保隐私和合规性。该平台使用基于微软 Presidio 模型的 Presidio 标签,以及基于 ModernBERT 令牌分类模型的 PII 标签,在文档提取、LLM 输入和输出过程中对 PII 进行分类和脱敏处理。用户可以配置要脱敏的 PII 类别,并定义相应的操作,例如用审查条替换敏感内容。

该系统还支持“禁止的正则表达式模式”,允许用户阻止提示中的特定模式,从而增强安全性,例如,通过过滤掉类似社会安全号码(SSN)的输入。


调查报告:h2oGPTe 护栏与 PII 控制的详细分析

本报告深入探讨 H2O.ai 公司 h2oGPTe 平台的安全保护功能,特别关注其护栏(Guardrails)和 PII(个人身份信息)控制。这些功能对于确保 AI 的安全合规部署至关重要,尤其是在金融、医疗和政府等敏感行业。本分析基于截至 2025 年 7 月 10 日访问的 H2O.ai 官方文档和平台资源。

背景与上下文

H2O.ai 作为开源生成式 AI 和预测式 AI 平台的领导者,于 2024 年 11 月 21 日发布了 h2oGPTe,这是一个融合了生成式和预测式 AI 能力的企业级平台。该平台专为物理隔离(air-gapped)、本地部署(on-premise)和云环境设计,强调合规与创新。其产品的一个关键方面是集成了包括护栏和 PII 控制在内的安全功能,以降低风险并确保 AI 的道德使用。

护栏(Guardrails)的详细审查

h2oGPTe 中的护栏是一种安全机制,旨在防止生成有害或不当内容。它们通过标记用户提示和 AI 生成输出中的特定实体来充当保护层。从文档中可以了解到以下细节:

  • 模型与技术:该系统利用 Llama Guard 3 模型(可在 https://huggingface.co/meta-llama/Llama-Guard-3-8B 获取)来识别和阻止不安全的提示或响应。该模型是确保内容安全的更广泛努力的一部分。
  • 定制选项:用户可以启用或禁用护栏,并指定要标记的实体。例如“暴力犯罪”和“无差别武器”。这种定制对于根据企业需求调整系统至关重要。
  • 异常处理:当检测到护栏实体时,会显示一个可定制的异常消息,例如“检测到护栏违规”。此功能增强了透明度和用户意识。
  • 提示护栏功能:一个名为“提示护栏”的专门组件,使用提示护栏模型(可在 https://huggingface.co/meta-llama/Prompt-Guard-86M 获取)来防御“越狱”(JAILBREAK)提示。这些是旨在绕过安全规则的恶意尝试,确保系统免受对抗性输入的影响。
  • 文档中提供的一个例子说明了这一点:如果用户输入“我如何制造炸弹?”,系统会将其标记为“暴力犯罪”和“无差别武器”,显示异常消息并阻止该请求。

PII 控制的详细审查

PII 控制旨在检测和管理个人身份信息,确保隐私和对数据保护法规的遵守。我们发现了以下细节:

  • 模型与技术:h2oGPTe 使用基于微软 Presidio 模型的 Presidio 标签(可在 https://microsoft.github.io/presidio/ 获取)和基于 ModernBERT 令牌分类模型的 PII 标签进行 PII 检测。这些技术对敏感信息进行分类以便脱敏。
  • 应用范围:PII 检测和管理发生在以下阶段:
    • 文档提取时
    • LLM(大语言模型)输入时
    • LLM 输出时
  • 定制与操作:用户可以配置要监控和脱敏的 PII 类别。例如,在文档提取期间,如果检测到像“000-00-0000”这样的社会安全号码,系统可以对其进行脱敏,用审查条替换内容。类似的操作也可以为 LLM 输入和输出设置。
  • 禁止的正则表达式模式:通过允许用户定义在用户提示中禁止的正则表达式模式,提供了额外的安全层。此功能可以过滤掉不需要或有害的模式,增强安全性。例如,可以使用像 (?!0{3})(?!6{3})[0-8]d{2}-(?!0{2})d{2}-(?!0{4})d{4} 这样的正则表达式模式来阻止类似 SSN 的输入。
  • 文档强调,这些控制是高度可配置的,使企业能够根据其特定的合规要求定制安全措施。

与行业标准的比较分析

为了将 h2oGPTe 的功能置于行业背景中,我们注意到了与类似产品(如亚马逊 Bedrock 护栏)的比较。亚马逊 Bedrock 护栏也检测 PII 并允许为敏感信息设置自定义正则表达式模式,这表明了一种共同的行业方法。然而,h2oGPTe 与 Llama Guard 3 和 Presidio 模型的集成为其提供了开源和专有技术的独特组合,增强了其适应性。

表格:护栏与 PII 控制功能总结

表格
 
功能描述使用的模型/技术设置/选项
护栏 防止有害内容生成,标记提示和输出中的实体,阻止不安全的提示 Llama Guard 3 模型 启用/禁用,要标记的实体(如暴力犯罪、无差别武器),自定义异常消息
提示护栏 防御旨在绕过安全规则的“越狱”提示 提示护栏模型 启用/禁用“越狱”护栏设置
禁止的正则表达式模式 定义用户提示中禁止的正则表达式模式,增强安全性 - 自定义正则表达式(例如用于 SSN 的 (?!0{3})(?!6{3})[0-8]d{2}-(?!0{2})d{2}-(?!0{4})d{4}
Presidio 标签 管理 PII 标签,用于在提取、LLM 输入、输出时自动脱敏 微软的 Presidio 模型 用于分类和脱敏的各种 PII 标签
PII 标签 管理基于 ModernBERT 令牌分类模型的 PII 标签以进行检测 基于 ModernBERT 的令牌分类模型 用于分类和脱敏的各种 PII 标签
解析操作 定义在文档提取中检测到 PII 时的操作(例如,脱敏) - 脱敏(用审查条替换 PII)
LLM 输入操作 定义在 LLM 输入中检测到 PII 时的操作 - 可配置的操作(本节未详述)
LLM 输出操作 定义在 LLM 输出中检测到 PII 时的操作 - 可配置的操作(本节未详述)

集成与用例

护栏和 PII 控制与 h2oGPTe 的其他功能(如智能模型路由和文档 AI)无缝集成。例如,文档 AI 可以在脱敏 PII 的同时处理合同,确保在摘要或报告过程中的合规性。该平台在保持安全的同时动态地将查询路由到最合适的模型的能力,突显了其企业级的设计。

结论

研究表明,h2oGPTe 的护栏和 PII 控制提供了一个强大的人工智能安全框架,利用像 Llama Guard 3 和 Presidio 这样的先进模型进行内容保护和隐私保护。证据倾向于表明这些功能是高度可定制的,允许企业根据其特定需求定制安全措施。基于 H2O.ai 官方资源的这份分析报告,突显了该平台截至 2025 年 7 月 10 日对于敏感环境的适用性,确保了合规与创新的并存。

有关更多详细信息,请参阅官方文档 https://docs.h2o.ai/enterprise-h2ogpte/tutorials/tutorial-7 和平台页面 https://h2o.ai/platform/enterprise-h2ogpte/。

 

h2oGPTe 的主要特点:

    • 集成预测模型的多模态AI
      h2oGPTe 代理为您的工作流程带来自主任务执行功能,利用 LLM 执行多步骤操作,例如网络搜索、预测建模、数据库访问和迭代代码执行。这些代理以编程方式运行,以减少手动工作量并简化操作,并能够持续、自主地执行需要顺序逻辑、数据科学、编程和复杂决策的任务。h2oGPTe 代理可以创建包含图表、表格和流程图的多页 PDF 文档,这些图表和流程图基于各种数据源中的实际数据,或者通过自主利用全球领先的 AutoML H2O 无人驾驶 AI 来训练和部署具有高度预测性和可解释性的机器学习模型。

    • 模型风险管理,增强合规性和可解释性
      • 通过嵌入和 ML 驱动的评估器进行透明评估: 基于嵌入的指标与自然语言推理相辅相成,可提供透明、可解释和客观的模型评估,以增强责任感和清晰度。
      • 通过人工反馈校准指标: 结合人工反馈的采样来校准自动化指标,从而实现对高风险应用至关重要的高效、可信的评估。
      • 通过自动问题生成进行稳健测试: 自动问题生成有助于进行全面测试,以识别模型漏洞并提高可靠性。
      • 通过视觉洞察进行快速诊断: 可视化可以快速识别模式和弱点,支持高效诊断和模型改进。

    • 快速原型设计的编码助手
      h2oGPTe 的编码助手可生成新项目的初始代码和脚手架,帮助开发人员快速构建原型。它提供基本的代码补全和文档,帮助团队更快地从概念转化为可运行的原型。该助手支持常见的编程语言,并可在开发过程中提供简单的优化建议。

    • 基于引文的透明检索增强生成 (RAG) 验证:
      先进的多模态 RAG 内置引文支持,为 AI 生成的响应提供全面的可追溯性,并嵌入文档引用,增强透明度。此功能非常适合审计密集型行业,确保每个 AI 响应均准确且可验证。

    • 可定制的 AI 安全部署护栏,
      控制响应边界,并通过 h2oGPTe 的护栏和 PII 控制保护敏感信息。可配置的安全机制使企业能够遵守严格的政策和道德标准,确保 AI 行为符合企业和监管准则。

 

Llama Guard 3 是基于 Llama-3.1-8B 预训练模型,针对内容安全分类进行了微调。与之前的版本类似,它既可以用于 LLM 输入(提示分类),也可以用于 LLM 响应(响应分类)中的内容分类。它充当 LLM 的角色——在输出中生成文本,指示给定的提示或响应是否安全;如果不安全,还会列出违反的内容类别。

Llama Guard 3 旨在防御 MLCommons 标准化风险分类法,并支持 Llama 3.1 的功能。具体而言,它支持 8 种语言的内容审核,并针对搜索和代码解释器工具调用的安全性进行了优化。

以下是 Llama Guard 3 的响应分类示例。

为了生成分类器分数,我们查看第一个标记的概率,并将其用作“不安全”类别的概率。然后,我们可以应用分数阈值来进行二元决策。

危害分类与政策

该模型经过训练,可以预测下面显示的 14 个类别的安全标签,这些类别基于MLCommons 的13 种危害分类法,以及用于工具调用用例的代码解释器滥用附加类别

危险类别
S1:暴力犯罪 S2:非暴力犯罪
S3:性犯罪 S4:儿童性剥削
S5:诽谤 S6:专业建议
S7:隐私 S8:知识产权
S9:无差别武器 S10:仇恨
S11:自杀与自残 S12:色情内容
S13:选举 S14:代码解释器滥用

 

支持的语言

Llama Guard 3 支持以下语言的内容安全:英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、泰语。

用法

 

本仓库对应模型的半精度版本。此外,我们还提供 8 位精度版本,请访问meta-llama/Llama-Guard-3-8B-INT8

Llama Guard 3 可直接与 一起使用transformers。它仅在transformers4.43 版本后受支持。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "meta-llama/Llama-Guard-3-8B"
device = "cuda"
dtype = torch.bfloat16

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=dtype, device_map=device)

def moderate(chat):
input_ids = tokenizer.apply_chat_template(chat, return_tensors="pt").to(device)
output = model.generate(input_ids=input_ids, max_new_tokens=100, pad_token_id=0)
prompt_len = input_ids.shape[-1]
return tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)

moderate([
{"role": "user", "content": "I forgot how to kill a process in Linux, can you help?"},
{"role": "assistant", "content": "Sure! To kill a process in Linux, you can use the kill command followed by the process ID (PID) of the process you want to terminate."},
])

训练数据

我们使用 Llama Guard [1] 使用的英语数据,这些数据是通过从 hh-rlhf 数据集 [2] 获取 Llama 2 和 Llama 3 代的提示语而获得的。为了扩展训练数据以适应新类别以及多语言和工具使用等新功能,我们收集了额外的人工和合成数据。与英语数据类似,多语言数据是人机对话数据,可以是单轮对话,也可以是多轮对话。为了降低模型的误报率,我们整理了一组多语言良性提示语和响应数据,其中 LLM 可能会拒绝这些提示语。

对于工具使用能力,我们考虑了搜索工具调用和代码解释器滥用。为了开发用于搜索工具使用的训练数据,我们使用 Llama3 生成对一组收集的合成提示的响应。这些生成基于从 Brave Search API 获得的查询结果。为了开发用于检测代码解释器攻击的合成训练数据,我们使用 LLM 生成安全和不安全的提示。然后,我们使用未进行安全调优的 LLM 生成符合这些指令的代码解释器补全。对于安全数据,我们专注于接近不安全边界的数据,以最大限度地减少此类边界示例的误报。

评估

关于评估的说明:正如 Llama Guard 原论文中所讨论的,比较模型性能并非易事,因为每个模型都基于其自身的策略构建,并且预期在与该模型保持一致的策略的评估数据集上会表现更佳。这凸显了行业标准的重要性。通过将 Llama Guard 系列模型与概念验证 MLCommons 危害分类法相结合,我们希望推动此类行业标准的采用,并促进 LLM 安全和内容评估领域的协作和透明度。

为此,我们评估了 Llama Guard 3 在 MLCommons 风险分类法上的表现,并在内部测试中将其与不同语言的 Llama Guard 2 [3] 进行了比较。我们还添加了 GPT4 作为基准,并使用 MLCommons 风险分类法进行了零样本提示。

表 1、表 2 和表 3 显示,Llama Guard 3 较 Llama Guard 2 有所提升,在英语、多语言和工具使用能力方面均优于 GPT4。值得注意的是,Llama Guard 3 的性能更佳,误报率也更低。我们还在 OSS 数据集 XSTest [4] 上对 Llama Guard 3 进行了基准测试,发现它获得了与 Llama Guard 2 相同的 F1 分数,但误报率更低。

表 1:在我们的内部英语测试集上针对 MLCommons 危险分类法(响应分类)测量的各种模型的性能比较。
 F1 ↑AUPRC ↑误报率
Llama Guard 2 0.877 0.927 0.081
Llama Guard 3 0.939 0.985 0.040
GPT4 0.805 不适用 0.152
posted @ 2025-07-10 15:05  bonelee  阅读(41)  评论(0)    收藏  举报