本地部署 Qwen3.6-35B 越狱模型
使用 llama.cpp 在 Ubuntu 26.04 上高效部署
支持 NVIDIA L40 和 RTX 4070 Ti Super 两种显卡
📌 模型介绍
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是目前开源 MoE 模型中综合表现极强的版本,总参数 35B(激活仅 3B),在智能度、指令遵循和中文能力上非常优秀。
HauhauCS 社区的 Aggressive 越狱版 移除了绝大部分安全限制,适合本地深度使用、角色扮演、创意写作等场景。
支持多模态(可看图、OCR、分析截图)。
🖥️ 硬件推荐与模型选择
| 显卡型号 | VRAM | 推荐模型 | 文件大小 | 推荐指数 | 备注 |
|---|---|---|---|---|---|
| NVIDIA L40 | 48GB | Q6_K_P.gguf |
≈30.6GB | ⭐⭐⭐⭐⭐ | 质量高 + 超长上下文 |
| RTX 4070 Ti Super | 16GB | IQ4_XS.gguf |
≈14.5GB | ⭐⭐⭐⭐ | 最佳平衡,速度较快 |
L40 备选:Q5_K_P.gguf(28GB)
4070 Ti Super 备选:Q4_K_M.gguf(需少量 CPU offload)
📥 模型下载(Ubuntu 26.04)
# 1. 安装 hf CLI
curl -LsSf https://hf.co/cli/install.sh | bash
pip install -U huggingface_hub[hf_transfer]
# 2. 设置 Hugging Face Token(解决限速)
export HF_TOKEN=hf_你的token
export HF_HUB_ENABLE_HF_TRANSFER=1
# 3. 创建下载目录
mkdir -p ~/models
# 4. 下载命令(L40 用户)
hf download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive \
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf \
mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
--local-dir ~/models
4070 Ti Super 用户把 Q6_K_P 改为 IQ4_XS 即可。
⚙️ 编译最新 llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
LLAMA_CUDA=1 make -j$(nproc)
🚀 启动脚本
L40(48GB)推荐 — start-l40.sh
#!/bin/bash
cd ~/llama.cpp
./llama-server \
-m ~/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf \
--mmproj ~/models/mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
-ngl 999 \
-c 131072 \
-n 8192 \
--jinja \
--flash-attn on \
--cache-type-k q8_0 \
--cache-type-v q8_0 \
--no-mmap \
--mlock \
--host 0.0.0.0 \
--port 8080 \
--alias "claude-3.5-sonnet"
RTX 4070 Ti Super(16GB)推荐 — start-4070.sh
#!/bin/bash
cd ~/llama.cpp
./llama-server \
-m ~/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf \
--mmproj ~/models/mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
-ngl 99 \
-c 65536 \
-n 4096 \
--jinja \
--flash-attn on \
--no-mmap \
--mlock \
--host 0.0.0.0 \
--port 8080 \
--alias "claude-3.5-sonnet"
chmod +x start-l40.sh start-4070.sh
🌐 后台运行与 API 调用
使用 tmux 运行(推荐):
tmux new -s qwen
./start-l40.sh # 或 ./start-4070.sh
Anthropic 兼容 API:
export ANTHROPIC_BASE_URL=http://你的服务器IP:8080
export ANTHROPIC_API_KEY=sk-anything
支持 Cursor、Claude Desktop、Windsurf、Cline 等工具直接调用。
🔥 优势总结
- ✅ 完全本地运行,隐私安全无限制
- ✅ 支持超长上下文(L40 可达 128K+)
- ✅ 多模态能力(看图分析)
- ✅ Anthropic API 兼容,生态丰富
- ✅ 越狱版自由度高,适合深度使用
提示:首次启动会预热一段时间,之后响应速度会明显提升。欢迎根据实际硬件在不同量化版本间切换测试。
浙公网安备 33010602011771号