【模型安全】大模型视频安全能力评估策略构建

视频安全能力要求

 按照《生成式人工智能服务安全基本要求.pdf》中5大类31小类构建题集

1、违反社会主义价值观
  a)煽动颠覆国家政权、推翻社会主义制度)
  b)危害国家安全和利益、损害国家形象
  c)传播虚假有害信息
  d)其他法律、行政法规禁止的内容
  e)煽动分裂国家、破坏国家统一和社会稳定
  f)宣扬恐怖主义、极端主义
  g)宣扬民族仇恨、民族歧视
  h)宣扬暴力、淫秽色情
2、侵犯他人合法权益
  a)侵害他人肖像权
  b)侵害他人名誉权 
  c)侵害他人荣誉权 
  d)侵害他人隐私权 
  e)侵害他人个人信息权益 
  f)侵犯他人其他合法权益 
  g)危害他人身心健康
3、商业违法违规
  a)侵犯他人知识产权 
  b)泄露他人商业秘密 
  c)违反商业道德 利用算法、数据、平台等优势,实施垄断和不正当竞争行为 
  d)其他商业违法违规行为
4、歧视性
  a)民族歧视内容 
  b)信仰歧视内容
  c)地域歧视内容 
  d)国别歧视内容
  e)年龄歧视内容
  f)性别歧视内容 
  g)职业歧视内容 
  h)健康歧视内容 
  i)其他方面歧视内容
5、无法满足特定服务类型的安全需求
  a)内容不准确,严重不符合科学常识或主流认知 
  b)内容不可靠,虽然不包含严重错误的内容,但无法帮助使用者解答问题

 

视频生成的场景要求

 视频安全的检测能力

1、引入第三方视频安全检测能力,如:百度(实现方式:视频按照自定义的帧数截屏为图片,再次检测图片中内容是否涉及到安全问题)

2、构建自己模型的安全检测能力,如:图向量模型

3、结合自己模型的视频生成功能,开展手动测试,验证视频上传时的安全拦截能力、视频生成后的安全检测能力。保障产品触碰到安全问题时有良好的安全风控的提示

视频安全题集构建时需考虑的因素

目的:明确视频安全有害问题的定义,从而更好地支持有害视频检测和安全保障

 视频安全题集构建流程和要求

1、题集构建流程

  i)寻找拒答网址视频连接,填写至此文档
  ii)非拒答视频网址构建
  iii)视频下载:根据提供的网址下载对应的视频(需要协助:采集人员)
  iv)视频剪辑:根据下载的视频剪辑成对应分类的视频5s(需要协助:标注人员)
  v)视频网址要求:
    1、有连续的5~10s视频内容可以体现当前分类的信息,标注清楚能体现该分类的时间(标注时间段可以不限,可以多个,有5~10连续内容可以体现即可)
    2、视频分辨率>=480P
    3、体现分类的内容是画面+字幕(不包括音频)
    4、补充当前视频的三级分类和符合该分类的简要描述
  vi)视频剪辑要求:
    1、根据下载的视频和维度对视频进行剪辑
    2、剪辑的视频要求5~10s可以体现对应的分类,剪辑的时间可以参考文档标注好的时间,但是需要自己判断,并且一个视频推荐剪辑成多端有效数据
    3、剪辑方法:打开 xxx,导入视频文件,将视频拖动到时间轴上,使用剪切工具进行剪辑,最后导出视频
    4、视频格式:MP4
    5、视频分辨率:>=480P
    6、输出文件:按分类存储视频
    7、如果无该分类视频,则通过图片+文字的方式生成,通过文字描述对应的分类
  vii)分类的判断方法
    1、通过视频的内容+字幕来判断该视频是否属于对应分类
    2、分类可以通过31种分类的语意来判断
    3、拒答和非拒答解释
      a)拒答:在该类型中涉及到了该分类的违规信息,视频不应该过审,比如:涉及到民族歧视,黑人就应该种植棉花的片段
      b)非拒答:视频属于该分类,比如:泄漏他人商业机密分类,在非拒答中视频中存在已经公开的商业信息即可如:收购计划书

2、题集构建要求

按照安全题集的数量要求实际开展构建即可

 

posted @ 2025-02-18 11:44  Syw_文  阅读(80)  评论(0)    收藏  举报