提示词注入问题

用输入构造来操控或者覆盖预期的输出
直接注入:直接构造攻击命令覆盖系统预设行为准则
间接注入:恶意指令嵌入到外部数据源如文档,网页或者训练数据中
提示词窃取:直接提示词窃取,角色扮演攻击,指令覆盖攻击,间接提示注入,旁敲侧击诱骗
模糊意图绕过
tools绕过
越狱攻击绕过:将promt未装成策略文件,结合角色扮演和编码

基础防御技术
在system prompt上判断意图

核心风险:
信息泄露 输出误判 恶意tools调用执行 前端安全 资源耗尽
防护策略:
输入输出外挂防护:安全护栏,异常检测,输出验证,模型自身安全提升
prompt分段拼接 数据与系统指令隔离避免上下文污染,高风险工具调用环境沙箱隔离 高危操作需要二次确认并设定白名单机制,审查和收缩 agent身份管理的独立身份认证

posted @ 2025-10-15 14:25  hwh405  阅读(21)  评论(0)    收藏  举报