本地部署 Qwen3.6-35B 越狱模型

使用 llama.cpp 在 Ubuntu 26.04 上高效部署
支持 NVIDIA L40RTX 4070 Ti Super 两种显卡


📌 模型介绍

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是目前开源 MoE 模型中综合表现极强的版本,总参数 35B(激活仅 3B),在智能度、指令遵循和中文能力上非常优秀。
HauhauCS 社区的 Aggressive 越狱版 移除了绝大部分安全限制,适合本地深度使用、角色扮演、创意写作等场景。

支持多模态(可看图、OCR、分析截图)。


🖥️ 硬件推荐与模型选择

显卡型号 VRAM 推荐模型 文件大小 推荐指数 备注
NVIDIA L40 48GB Q6_K_P.gguf ≈30.6GB ⭐⭐⭐⭐⭐ 质量高 + 超长上下文
RTX 4070 Ti Super 16GB IQ4_XS.gguf ≈14.5GB ⭐⭐⭐⭐ 最佳平衡,速度较快

L40 备选Q5_K_P.gguf(28GB)
4070 Ti Super 备选Q4_K_M.gguf(需少量 CPU offload)


📥 模型下载(Ubuntu 26.04)

# 1. 安装 hf CLI
curl -LsSf https://hf.co/cli/install.sh | bash
pip install -U huggingface_hub[hf_transfer]

# 2. 设置 Hugging Face Token(解决限速)
export HF_TOKEN=hf_你的token
export HF_HUB_ENABLE_HF_TRANSFER=1

# 3. 创建下载目录
mkdir -p ~/models

# 4. 下载命令(L40 用户)
hf download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive \
  Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf \
  mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --local-dir ~/models

4070 Ti Super 用户Q6_K_P 改为 IQ4_XS 即可。


⚙️ 编译最新 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
LLAMA_CUDA=1 make -j$(nproc)

🚀 启动脚本

L40(48GB)推荐 — start-l40.sh

#!/bin/bash
cd ~/llama.cpp

./llama-server \
  -m ~/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf \
  --mmproj ~/models/mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -ngl 999 \
  -c 131072 \
  -n 8192 \
  --jinja \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --no-mmap \
  --mlock \
  --host 0.0.0.0 \
  --port 8080 \
  --alias "claude-3.5-sonnet"

RTX 4070 Ti Super(16GB)推荐 — start-4070.sh

#!/bin/bash
cd ~/llama.cpp

./llama-server \
  -m ~/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf \
  --mmproj ~/models/mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -ngl 99 \
  -c 65536 \
  -n 4096 \
  --jinja \
  --flash-attn on \
  --no-mmap \
  --mlock \
  --host 0.0.0.0 \
  --port 8080 \
  --alias "claude-3.5-sonnet"
chmod +x start-l40.sh start-4070.sh

🌐 后台运行与 API 调用

使用 tmux 运行(推荐)

tmux new -s qwen
./start-l40.sh     # 或 ./start-4070.sh

Anthropic 兼容 API

export ANTHROPIC_BASE_URL=http://你的服务器IP:8080
export ANTHROPIC_API_KEY=sk-anything

支持 Cursor、Claude Desktop、Windsurf、Cline 等工具直接调用。


🔥 优势总结

  • 完全本地运行,隐私安全无限制
  • ✅ 支持超长上下文(L40 可达 128K+)
  • ✅ 多模态能力(看图分析)
  • ✅ Anthropic API 兼容,生态丰富
  • ✅ 越狱版自由度高,适合深度使用

提示:首次启动会预热一段时间,之后响应速度会明显提升。欢迎根据实际硬件在不同量化版本间切换测试。

posted on 2026-05-25 09:31  a120608yby  阅读(104)  评论(0)    收藏  举报