摘要:
Abstract 背景: 对抗性prompts对字符层次的变化很敏感 Task: Defense adversarial prompts by randomly perturbs multiple copies of a prompt then aggregates the responsees o 阅读全文
posted @ 2025-02-08 21:50
雪溯
阅读(45)
评论(0)
推荐(0)
摘要:
Abstract Tool: PPL Findings: queries with adversarial suffixes have a higher perplexity, 可以利用这一点检测 仅仅使用perplexity filter对mix of prompt types不合适,会带来很高的 阅读全文
posted @ 2025-02-08 01:46
雪溯
阅读(45)
评论(0)
推荐(0)
摘要:
Abstract 背景:现有的研究更多聚焦于拦截效果而忽视了可用性和性能 Benchmark: USEBench Metric: USEIndex Study: 7LLMs findings 主流的defenses机制往往不能兼顾安全和性能 (vertical comparisons?) 开发者往往 阅读全文
posted @ 2025-02-08 01:46
雪溯
阅读(121)
评论(0)
推荐(0)

浙公网安备 33010602011771号