Ollama Qwen — 安装测试
Windows 系统,内存32G、CPU Gen Intel(R) Core(TM) i7-12700 、集成显卡 Intel(R) HUD Graphics 770
语言内模型
- Gemma
- DeepSeek
- Qwen
视频类的模型
- llava
- phi
- minicpm-v
本地运行,不要,不要超过10G,不然跑了吃力
Qwen3-4B 是这台 32G 内存机器的“甜点级”选择。它比 1.7B 更聪明,比 7B 更轻快,非常适合处理复杂的合同章节逻辑。
一、上面的配置跑 Qwen3-4B 怎么样?
4B:表示 40亿的模型训练参数
结论:完全可行,是纯 CPU 环境下的“黄金尺寸”。
- 内存占用:4-bit 量化后的 Qwen3-4B 权重约 2.5GB~3GB。加载模型加上推理时的 KV Cache,总内存占用通常在 8GB~12GB 左右。你的 32GB 内存绰绰有余,甚至可以同时跑 PaddleOCR 服务。
- 速度体验:在 i7-12700 上,预计生成速度约 6~10 token/秒。处理一份 10 页的合同(约 3000 字),生成 JSON 结构大约需要 30~60 秒。这比 7B 模型快了一倍,属于“业务可接受”的延迟。
- Ollama 支持:Ollama 官方已收录
qwen3:4b标签,直接拉取即可,无需手动折腾 GGUF 文件。
二、Qwen3-4B 相比 1.7B 的优势
对于你的“合同章节识别”任务,4B 的提升是实质性的:
- 结构理解更强:4B 参数更多,在理解“1. 总则 -> 1.1 定义 -> 1.1.1 条款”这种多级嵌套章节时,准确率和稳定性显著高于 1.7B。
- 格式更稳:输出复杂的 JSON 结构时,4B 更少出现格式错误(如括号不匹配、字段遗漏),减少了后处理的工作量。
- 长上下文更稳:Qwen3-4B 拥有 32K 的上下文窗口,处理长合同时的表现比小模型更可靠。
三、最终选型建议(纯 CPU 环境)
| 模型 | 推荐度 | 适用场景 |
|---|---|---|
| Qwen3-4B | ★★★★★ | 强烈推荐。在速度和能力上取得了完美平衡,是处理含复杂章节合同的性价比之王。 |
| Qwen3-1.7B | ★★★★☆ | 适合合同结构简单(如只有一二级标题),且对速度要求极高的场景。 |
| Qwen3-7B | ★★☆☆☆ | 在纯 CPU 下太慢(~3 token/s),仅适合极少量、高价值的深度解析。 |
建议:直接部署 Qwen3-4B。它既能满足你识别章节内容的需求,又不会像 7B 那样拖慢整个系统。
🚀 极简部署方案(Ollama for Windows)
1. 安装 Ollama
Ollama Windows 安装 & 指定安装目录:https://www.cnblogs.com/vipsoft/p/20120161
2. 拉取 Qwen3.5 模型(CPU 优化版)
访问 Ollama 官网模型库:https://ollama.com/library
打开 PowerShell 或 CMD,执行以下命令拉取适合你配置的模型:
# 运行 Qwen3.5:4b(最推荐,模型约3.4GB)
ollama run qwen3.5:4b


测试

接口调用


删除模型
ollama rm qwen3.5:4b
本文来自博客园,作者:VipSoft 转载请注明原文链接:https://www.cnblogs.com/vipsoft/p/20119448
浙公网安备 33010602011771号