专属 16K 上下文模型

为了让你以后随时抄作业,这里为你整理一份纯享版、无废话的“专属 16K 上下文模型”定制指南。

在 WSL 终端中,只需执行以下 3 步:


第一步:编写 Modelfile 配置文件

直接在终端运行以下命令,创建一个名为 Modelfile 的文件(这里以 qwen3.5:9b 为例):

echo -e "FROM qwen3.5:9b\nPARAMETER num_ctx 16384" > ./Modelfile

💡 小贴士

  • FROM 后面是你已经在本地下载好的原版基础模型(可用 ollama list 查看)。
  • PARAMETER num_ctx 16384 就是把记忆力硬核提升到 16K (16384 tokens) 的关键指令。

第二步:编译生成 16K 新模型

利用刚才写好的配置文件,让 Ollama 帮你打包一个全新的专属模型。在终端输入:

ollama create qwen3.5-16k -f ./Modelfile

(终端会快速滚动几行进度,当看到 success 时即代表新模型 qwen3.5-16k 编译成功!)


第三步:去前端客户端(如 OpenCode)进行切换

打开你的 OpenCode、Continue 或其他 WebUI 的配置文件(通常是 config.json),将模型指向你刚刚亲手创建的新名字,并同步修改前端的长度限制:

{
  "model": "qwen3.5-16k",      // <--- 改为你创建的新模型名字
  "provider": "ollama",
  "apiBase": "http://127.0.0.1:11434/v1",
  "contextLength": 16384       // <--- 告诉前端现在可以发送 16K 的超长代码了
}


验证与复位(可选)

配置完成后,建议在终端执行一次:

sudo systemctl restart ollama

彻底清空一次后台旧模型的显存残余。现在,你就可以在 OpenCode 里体验真正不截断、不报 502 的丝滑完全体本地大模型了!

posted @ 2026-06-22 20:14  suntl  阅读(3)  评论(0)    收藏  举报