摘要: 随着 ChatGPT、Midjourney、Stable Diffusion 等现象级应用的广泛使用,大模型的安全性受到了学术界和产业界的广泛关注。现有的研究热点主要围绕两方面: (1)利用 SFT 与 RLHF 等技术将大模型与人类偏好对齐,从而提升大模型自身的安全性。 (2)针对不同场景设计专用内容过滤器。除了大模型服务系统自身的安全性之外,如何防止大模型引发其他类型的风险也是值得注意的方向,本研究全面地讨论了大模型对于现有数字黑灰色产业的革新以及如何利用大模型自身的能力构建下一代的风控系统,针对一些具体的案例,我们给出了详细的上下游作恶手法还原,以此警示大家注意防范生成式 AI 引发的新型风险。 本文由 AI lab,SSV 公益平台部,PCG 画像平台中心,三方合作完成,旨在吸引对于 AIGC 在风控场景引发的风险的重视及提出一些解决思路。 阅读全文
posted @ 2023-05-26 09:04 古道轻风 阅读(137) 评论(0) 推荐(0) 编辑