提示词注入问题

用输入构造来操控或者覆盖预期的输出
直接注入：直接构造攻击命令覆盖系统预设行为准则
间接注入：恶意指令嵌入到外部数据源如文档，网页或者训练数据中
提示词窃取：直接提示词窃取，角色扮演攻击，指令覆盖攻击，间接提示注入，旁敲侧击诱骗
模糊意图绕过
tools绕过
越狱攻击绕过：将promt未装成策略文件，结合角色扮演和编码

基础防御技术
在system prompt上判断意图

核心风险：
信息泄露输出误判恶意tools调用执行前端安全资源耗尽
防护策略：
输入输出外挂防护：安全护栏，异常检测，输出验证，模型自身安全提升
prompt分段拼接数据与系统指令隔离避免上下文污染，高风险工具调用环境沙箱隔离高危操作需要二次确认并设定白名单机制，审查和收缩 agent身份管理的独立身份认证