llama.cpp+gguf 极简AI模型使用 - 属于我的梦，明明还在 - 博客园

llama.cpp+gguf 极简AI模型使用

下载极简的AI模型

wget https://hf-mirror.com/Qwen/Qwen2-0.5B-Instruct-GGUF/resolve/main/qwen2-0_5b-instruct-q4_k_m.gguf

量化文件是什么（.gguf）

千问模型库  https://modelscope.cn/models/Qwen/Qwen3-0.6B-GGUF/summary

量化 = 把高精度浮点权重 → 压缩成低精度整数
常见：Q2_K / Q3_K / Q4_K_M / Q5_K / Q6 / Q8

你手里：qwen2-0_5b-instruct-q4_k_m.gguf

q4 = 4 比特量化
k_m = 均衡兼顾速度与效果
gguf = llama.cpp 专用统一格式

核心特点

体积小
原版 1GB → 量化后仅 300MB 左右
内存占用大幅降低
CPU 轻松跑，低配服务器无压力
速度更快，推理延迟更低
有损压缩：轻微损失一点点理解能力，日常指令识别完全感知不到
只能用来推理聊天，不能训练、不能微调

llama.cpp = 纯 C/C++ 写的、轻量级大模型本地推理引擎

专门用来低配电脑 / 服务器离线跑 AI 大模型，不需要显卡、不吃配置、极简。

1. llama.cpp核心定位

https://github.com/ggml-org/llama.cpp

不开源大模型，只负责跑模型、做对话推理
全世界最轻量、跨平台的 AI 运行工具
支持 Windows / Linux / Mac / 树莓派 / 服务器
纯 CPU 就能跑，无显卡完美适配

2. 它能干啥

加载 GGUF 量化 AI 模型（你现在用的格式）
本地离线对话、问答、指令识别
提供命令行交互、HTTP 接口 API
极低内存占用，后台常驻不卡机
速度快、无 Python 臃肿依赖

3. 它不能干啥

不能训练模型（只能跑、不能教）
不自带模型，必须自己下载 GGUF 模型
不做数据处理、不做业务逻辑（只负责 AI 说话）

4. 和其他工具区别

Ollama：套壳简化版，底层还是调用 llama.cpp
Transformers：Python 重型框架，吃内存、依赖多
llama.cpp：原生最简内核，无冗余、最省资源

5. 常用两个核心程序

llama-cli：命令行交互式聊天（你一直在用）
llama-server：开启 HTTP 接口，网页 / 程序调用 AI
运行命令：

.\llama-cli.exe -m models/qwen2.5-0.5b-instruct-q2_k.gguf 
.\llama-server.exe -m models/qwen2.5-0.5b-instruct-q2_k.gguf

模型下载：https://modelscope.cn/models

posted on 2026-05-20 17:03 属于我的梦，明明还在阅读(88) 评论(0) 收藏举报

刷新页面返回顶部