会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Hugging Face 博客
The AI community building the future.
博客园
首页
新随笔
联系
订阅
管理
2023年4月27日
为大语言模型建立红队对抗
摘要: 在巨量文本数据下训练的大语言模型非常擅长生成现实文本。但是,这些模型通常会显现出一些不良行为像泄露个人信息 (比如社会保险号) 和生成错误信息,偏置,仇恨或有毒内容。举个例子,众所周知,GPT3 的早期版本就表现出性别歧视 (如下图) 与 仇恨穆斯林言论 的情况。 一旦我们在使用大语言模型时发现了这
阅读全文
posted @ 2023-04-27 23:41 HuggingFace
阅读(223)
评论(0)
推荐(0)
公告