不依赖对话日志检测Prompt注入，一套隐私优先的实现方案

检测 Prompt 注入和越狱攻击的方法，大多建立在系统可以访问对话日志这个前提上。但是如果设计一个系统，每段对话只处理一次以提取特征，不保留原始文本可以吗？：

如果只保留遥测数据（关于会话行为的数值信号）实际上能保留多少检测能力？

本文就是做一个受约束的实验，用于测试这种架构边界是否可行。

系统概述

原始对话文本只处理一次，然后永久丢弃。

每次交互经过一个特征提取步骤，计算 Token 计数、重试模式和若干语义指标等信号，随后文本即被销毁。不存储任何日志，下游的组件无法触及原始内容。

系统结构如下：

流水线分为四个部分：特征提取器是唯一能接触原始文本的组件；脱敏步骤在处理完成后立即删除文本；遥测存储仅保存数值特征；检测引擎纯粹基于遥测运行。特征提取器之后的所有环节都只与存储在会话级别的数值打交道。

整个实验的核心就在这个边界上，一旦特征计算完成，系统不会保留任何的对话内容

posted @ 2026-03-31 23:49 deephub 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部