Ollama Qwen — 安装测试

Windows 系统,内存32G、CPU Gen Intel(R) Core(TM) i7-12700 、集成显卡 Intel(R) HUD Graphics 770

语言内模型

  • Gemma
  • DeepSeek
  • Qwen

视频类的模型

  • llava
  • phi
  • minicpm-v

本地运行,不要,不要超过10G,不然跑了吃力

Qwen3-4B 是这台 32G 内存机器的“甜点级”选择。它比 1.7B 更聪明,比 7B 更轻快,非常适合处理复杂的合同章节逻辑。

一、上面的配置跑 Qwen3-4B 怎么样?

4B:表示 40亿的模型训练参数

结论:完全可行,是纯 CPU 环境下的“黄金尺寸”。

  • 内存占用:4-bit 量化后的 Qwen3-4B 权重约 2.5GB~3GB。加载模型加上推理时的 KV Cache,总内存占用通常在 8GB~12GB 左右。你的 32GB 内存绰绰有余,甚至可以同时跑 PaddleOCR 服务。
  • 速度体验:在 i7-12700 上,预计生成速度约 6~10 token/秒。处理一份 10 页的合同(约 3000 字),生成 JSON 结构大约需要 30~60 秒。这比 7B 模型快了一倍,属于“业务可接受”的延迟。
  • Ollama 支持:Ollama 官方已收录 qwen3:4b 标签,直接拉取即可,无需手动折腾 GGUF 文件。

二、Qwen3-4B 相比 1.7B 的优势

对于你的“合同章节识别”任务,4B 的提升是实质性的:

  1. 结构理解更强:4B 参数更多,在理解“1. 总则 -> 1.1 定义 -> 1.1.1 条款”这种多级嵌套章节时,准确率和稳定性显著高于 1.7B。
  2. 格式更稳:输出复杂的 JSON 结构时,4B 更少出现格式错误(如括号不匹配、字段遗漏),减少了后处理的工作量。
  3. 长上下文更稳:Qwen3-4B 拥有 32K 的上下文窗口,处理长合同时的表现比小模型更可靠。

三、最终选型建议(纯 CPU 环境)

模型 推荐度 适用场景
Qwen3-4B ★★★★★ 强烈推荐。在速度和能力上取得了完美平衡,是处理含复杂章节合同的性价比之王。
Qwen3-1.7B ★★★★☆ 适合合同结构简单(如只有一二级标题),且对速度要求极高的场景。
Qwen3-7B ★★☆☆☆ 在纯 CPU 下太慢(~3 token/s),仅适合极少量、高价值的深度解析。

建议:直接部署 Qwen3-4B。它既能满足你识别章节内容的需求,又不会像 7B 那样拖慢整个系统。

🚀 极简部署方案(Ollama for Windows)

1. 安装 Ollama
Ollama Windows 安装 & 指定安装目录:https://www.cnblogs.com/vipsoft/p/20120161

2. 拉取 Qwen3.5 模型(CPU 优化版)
访问 Ollama 官网模型库:https://ollama.com/library
打开 PowerShell 或 CMD,执行以下命令拉取适合你配置的模型:

# 运行 Qwen3.5:4b(最推荐,模型约3.4GB)
ollama run qwen3.5:4b

image

http://localhost:11434/

image

测试

image

接口调用

image

image

删除模型

ollama rm qwen3.5:4b

posted @ 2026-05-22 16:31  VipSoft  阅读(23)  评论(0)    收藏  举报