专属 16K 上下文模型
为了让你以后随时抄作业,这里为你整理一份纯享版、无废话的“专属 16K 上下文模型”定制指南。
在 WSL 终端中,只需执行以下 3 步:
第一步:编写 Modelfile 配置文件
直接在终端运行以下命令,创建一个名为 Modelfile 的文件(这里以 qwen3.5:9b 为例):
echo -e "FROM qwen3.5:9b\nPARAMETER num_ctx 16384" > ./Modelfile
💡 小贴士:
FROM后面是你已经在本地下载好的原版基础模型(可用ollama list查看)。PARAMETER num_ctx 16384就是把记忆力硬核提升到 16K (16384 tokens) 的关键指令。
第二步:编译生成 16K 新模型
利用刚才写好的配置文件,让 Ollama 帮你打包一个全新的专属模型。在终端输入:
ollama create qwen3.5-16k -f ./Modelfile
(终端会快速滚动几行进度,当看到 success 时即代表新模型 qwen3.5-16k 编译成功!)
第三步:去前端客户端(如 OpenCode)进行切换
打开你的 OpenCode、Continue 或其他 WebUI 的配置文件(通常是 config.json),将模型指向你刚刚亲手创建的新名字,并同步修改前端的长度限制:
{
"model": "qwen3.5-16k", // <--- 改为你创建的新模型名字
"provider": "ollama",
"apiBase": "http://127.0.0.1:11434/v1",
"contextLength": 16384 // <--- 告诉前端现在可以发送 16K 的超长代码了
}
验证与复位(可选)
配置完成后,建议在终端执行一次:
sudo systemctl restart ollama
彻底清空一次后台旧模型的显存残余。现在,你就可以在 OpenCode 里体验真正不截断、不报 502 的丝滑完全体本地大模型了!
本文来自博客园,作者:suntl,转载请注明原文链接:https://www.cnblogs.com/stlong/p/20711847

浙公网安备 33010602011771号