下载极简的AI模型
wget https://hf-mirror.com/Qwen/Qwen2-0.5B-Instruct-GGUF/resolve/main/qwen2-0_5b-instruct-q4_k_m.gguf
量化文件是什么(.gguf)
千问模型库 https://modelscope.cn/models/Qwen/Qwen3-0.6B-GGUF/summary
量化 = 把高精度浮点权重 → 压缩成低精度整数
常见:Q2_K / Q3_K / Q4_K_M / Q5_K / Q6 / Q8
常见:Q2_K / Q3_K / Q4_K_M / Q5_K / Q6 / Q8
你手里:
qwen2-0_5b-instruct-q4_k_m.ggufq4= 4 比特量化k_m= 均衡兼顾速度与效果gguf= llama.cpp 专用统一格式
核心特点
- 体积小
原版 1GB → 量化后仅 300MB 左右 - 内存占用大幅降低
CPU 轻松跑,低配服务器无压力 - 速度更快,推理延迟更低
- 有损压缩:轻微损失一点点理解能力,日常指令识别完全感知不到
- 只能用来推理聊天,不能训练、不能微调
llama.cpp = 纯 C/C++ 写的、轻量级大模型本地推理引擎
专门用来低配电脑 / 服务器离线跑 AI 大模型,不需要显卡、不吃配置、极简。
1. llama.cpp核心定位
https://github.com/ggml-org/llama.cpp
- 不开源大模型,只负责跑模型、做对话推理
- 全世界最轻量、跨平台的 AI 运行工具
- 支持 Windows / Linux / Mac / 树莓派 / 服务器
- 纯 CPU 就能跑,无显卡完美适配
2. 它能干啥
- 加载 GGUF 量化 AI 模型(你现在用的格式)
- 本地离线对话、问答、指令识别
- 提供命令行交互、HTTP 接口 API
- 极低内存占用,后台常驻不卡机
- 速度快、无 Python 臃肿依赖
3. 它不能干啥
- 不能训练模型(只能跑、不能教)
- 不自带模型,必须自己下载 GGUF 模型
- 不做数据处理、不做业务逻辑(只负责 AI 说话)
4. 和其他工具区别
- Ollama:套壳简化版,底层还是调用 llama.cpp
- Transformers:Python 重型框架,吃内存、依赖多
- llama.cpp:原生最简内核,无冗余、最省资源
5. 常用两个核心程序
- llama-cli:命令行交互式聊天(你一直在用)
- llama-server:开启 HTTP 接口,网页 / 程序调用 AI
- 运行命令:
.\llama-cli.exe -m models/qwen2.5-0.5b-instruct-q2_k.gguf
.\llama-server.exe -m models/qwen2.5-0.5b-instruct-q2_k.gguf
模型下载:https://modelscope.cn/models

浙公网安备 33010602011771号