专属 16K 上下文模型

为了让你以后随时抄作业，这里为你整理一份纯享版、无废话的“专属 16K 上下文模型”定制指南。

在 WSL 终端中，只需执行以下 3 步：

第一步：编写 Modelfile 配置文件

直接在终端运行以下命令，创建一个名为 Modelfile 的文件（这里以 qwen3.5:9b 为例）：

echo -e "FROM qwen3.5:9b\nPARAMETER num_ctx 16384" > ./Modelfile

💡 小贴士：

FROM 后面是你已经在本地下载好的原版基础模型（可用 ollama list 查看）。

PARAMETER num_ctx 16384 就是把记忆力硬核提升到 16K (16384 tokens) 的关键指令。

第二步：编译生成 16K 新模型

利用刚才写好的配置文件，让 Ollama 帮你打包一个全新的专属模型。在终端输入：

ollama create qwen3.5-16k -f ./Modelfile

（终端会快速滚动几行进度，当看到 success 时即代表新模型 qwen3.5-16k 编译成功！）

第三步：去前端客户端（如 OpenCode）进行切换

打开你的 OpenCode、Continue 或其他 WebUI 的配置文件（通常是 config.json），将模型指向你刚刚亲手创建的新名字，并同步修改前端的长度限制：

{
  "model": "qwen3.5-16k",      // <--- 改为你创建的新模型名字
  "provider": "ollama",
  "apiBase": "http://127.0.0.1:11434/v1",
  "contextLength": 16384       // <--- 告诉前端现在可以发送 16K 的超长代码了
}

验证与复位（可选）

配置完成后，建议在终端执行一次：

sudo systemctl restart ollama

彻底清空一次后台旧模型的显存残余。现在，你就可以在 OpenCode 里体验真正不截断、不报 502 的丝滑完全体本地大模型了！

posted @ 2026-06-22 20:14 suntl 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

这也会过去

永远保持离开时的露营地比你发现它时更整洁

专属 16K 上下文模型

第一步：编写 Modelfile 配置文件

第二步：编译生成 16K 新模型

第三步：去前端客户端（如 OpenCode）进行切换

验证与复位（可选）