不依赖对话日志检测Prompt注入,一套隐私优先的实现方案

检测 Prompt 注入和越狱攻击的方法,大多建立在系统可以访问对话日志这个前提上。但是如果设计一个系统,每段对话只处理一次以提取特征,不保留原始文本可以吗?:

如果只保留遥测数据(关于会话行为的数值信号)实际上能保留多少检测能力?

本文就是做一个受约束的实验,用于测试这种架构边界是否可行。

系统概述

原始对话文本只处理一次,然后永久丢弃。

每次交互经过一个特征提取步骤,计算 Token 计数、重试模式和若干语义指标等信号,随后文本即被销毁。不存储任何日志,下游的组件无法触及原始内容。

系统结构如下:

流水线分为四个部分:特征提取器是唯一能接触原始文本的组件;脱敏步骤在处理完成后立即删除文本;遥测存储仅保存数值特征;检测引擎纯粹基于遥测运行。特征提取器之后的所有环节都只与存储在会话级别的数值打交道。

整个实验的核心就在这个边界上,一旦特征计算完成,系统不会保留任何的对话内容

 

https://avoid.overfit.cn/post/8a8516da677b4396959f4ac96093a7d1

posted @ 2026-03-31 23:49  deephub  阅读(2)  评论(0)    收藏  举报