探索大型语言模型：本地LLM CTF与实验环境

TL;DR

本文探讨了通过控制器管理特权LLM和隔离LLM访问的研究。通过CTF场景演示如何构造符合特定约束条件的问题，从特权LLM中解锁秘密，同时规避隔离LLM的语义检查。

采用功能隔离策略，使用模板定义模型行为：

const template_is_llm_jailbreak = `FROM {{modelname}}
SYSTEM You will only respond the words true or false...`

实现输入验证正则表达式：

rxUserInput := regexp.MustCompile(`^[a-zA-Z0-9+/=\.,\? '%\$]{10,512}$`)

定义四阶段处理流程：

使用mistral模型成功提取完整秘密：

VALID: The Secret: "RGlkIHlvdSBsb29rIGF0IHRoZSBzb3VyY2UgY29kZ..."
解码后：Did you look at the source code, grep the bin...

生产环境应考虑：

尝试修改程序防止注入绕过，或改进越狱检测提示模板。

该项目基于ollama、llama.cpp和go语言实现，展示了LLM安全防护的实践方案。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

posted @ 2025-08-12 22:16 qife 阅读(41) 评论(0) 收藏举报

刷新页面返回顶部