本地部署 Qwen3.6-35B 越狱模型

公告

使用 llama.cpp 在 Ubuntu 26.04 上高效部署
支持 NVIDIA L40 和 RTX 4070 Ti Super 两种显卡

📌 模型介绍

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是目前开源 MoE 模型中综合表现极强的版本，总参数 35B（激活仅 3B），在智能度、指令遵循和中文能力上非常优秀。
HauhauCS 社区的 Aggressive 越狱版 移除了绝大部分安全限制，适合本地深度使用、角色扮演、创意写作等场景。

支持多模态（可看图、OCR、分析截图）。

🖥️ 硬件推荐与模型选择

显卡型号	VRAM	推荐模型	文件大小	推荐指数	备注
NVIDIA L40	48GB	`Q6_K_P.gguf`	≈30.6GB	⭐⭐⭐⭐⭐	质量高 + 超长上下文
RTX 4070 Ti Super	16GB	`IQ4_XS.gguf`	≈14.5GB	⭐⭐⭐⭐	最佳平衡，速度较快

L40 备选：Q5_K_P.gguf（28GB）
4070 Ti Super 备选：Q4_K_M.gguf（需少量 CPU offload）

📥 模型下载（Ubuntu 26.04）

# 1. 安装 hf CLI
curl -LsSf https://hf.co/cli/install.sh | bash
pip install -U huggingface_hub[hf_transfer]

# 2. 设置 Hugging Face Token（解决限速）
export HF_TOKEN=hf_你的token
export HF_HUB_ENABLE_HF_TRANSFER=1

# 3. 创建下载目录
mkdir -p ~/models

# 4. 下载命令（L40 用户）
hf download HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive \
  Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf \
  mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  --local-dir ~/models

4070 Ti Super 用户把 Q6_K_P 改为 IQ4_XS 即可。

⚙️ 编译最新 llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
LLAMA_CUDA=1 make -j$(nproc)

🚀 启动脚本

L40（48GB）推荐 — `start-l40.sh`

#!/bin/bash
cd ~/llama.cpp

./llama-server \
  -m ~/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q6_K_P.gguf \
  --mmproj ~/models/mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -ngl 999 \
  -c 131072 \
  -n 8192 \
  --jinja \
  --flash-attn on \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --no-mmap \
  --mlock \
  --host 0.0.0.0 \
  --port 8080 \
  --alias "claude-3.5-sonnet"

RTX 4070 Ti Super（16GB）推荐 — `start-4070.sh`

#!/bin/bash
cd ~/llama.cpp

./llama-server \
  -m ~/models/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf \
  --mmproj ~/models/mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
  -ngl 99 \
  -c 65536 \
  -n 4096 \
  --jinja \
  --flash-attn on \
  --no-mmap \
  --mlock \
  --host 0.0.0.0 \
  --port 8080 \
  --alias "claude-3.5-sonnet"

chmod +x start-l40.sh start-4070.sh

🌐 后台运行与 API 调用

使用 tmux 运行（推荐）：

tmux new -s qwen
./start-l40.sh     # 或 ./start-4070.sh

Anthropic 兼容 API：

export ANTHROPIC_BASE_URL=http://你的服务器IP:8080
export ANTHROPIC_API_KEY=sk-anything

支持 Cursor、Claude Desktop、Windsurf、Cline 等工具直接调用。

🔥 优势总结

✅ 完全本地运行，隐私安全无限制
✅ 支持超长上下文（L40 可达 128K+）
✅ 多模态能力（看图分析）
✅ Anthropic API 兼容，生态丰富
✅ 越狱版自由度高，适合深度使用

提示：首次启动会预热一段时间，之后响应速度会明显提升。欢迎根据实际硬件在不同量化版本间切换测试。

posted on 2026-05-25 09:31 a120608yby 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部