属于我的梦,明明还在
个人工具站/博客持续更新中用于技术层面探讨 http://rhx0306.online/

下载极简的AI模型

wget https://hf-mirror.com/Qwen/Qwen2-0.5B-Instruct-GGUF/resolve/main/qwen2-0_5b-instruct-q4_k_m.gguf

量化文件是什么(.gguf)

千问模型库  https://modelscope.cn/models/Qwen/Qwen3-0.6B-GGUF/summary
量化 = 把高精度浮点权重 → 压缩成低精度整数
常见:Q2_K / Q3_K / Q4_K_M / Q5_K / Q6 / Q8
你手里:qwen2-0_5b-instruct-q4_k_m.gguf
  • q4 = 4 比特量化
  • k_m = 均衡兼顾速度与效果
  • gguf = llama.cpp 专用统一格式

核心特点

  1. 体积小
    原版 1GB → 量化后仅 300MB 左右
  2. 内存占用大幅降低
    CPU 轻松跑,低配服务器无压力
  3. 速度更快,推理延迟更低
  4. 有损压缩:轻微损失一点点理解能力,日常指令识别完全感知不到
  5. 只能用来推理聊天,不能训练、不能微调

llama.cpp = 纯 C/C++ 写的、轻量级大模型本地推理引擎

 

专门用来低配电脑 / 服务器离线跑 AI 大模型,不需要显卡、不吃配置、极简。


 

1. llama.cpp核心定位

https://github.com/ggml-org/llama.cpp
  • 不开源大模型,只负责跑模型、做对话推理
  • 全世界最轻量、跨平台的 AI 运行工具
  • 支持 Windows / Linux / Mac / 树莓派 / 服务器
  • 纯 CPU 就能跑,无显卡完美适配

2. 它能干啥

  1. 加载 GGUF 量化 AI 模型(你现在用的格式)
  2. 本地离线对话、问答、指令识别
  3. 提供命令行交互、HTTP 接口 API
  4. 极低内存占用,后台常驻不卡机
  5. 速度快、无 Python 臃肿依赖

3. 它不能干啥

  • 不能训练模型(只能跑、不能教)
  • 不自带模型,必须自己下载 GGUF 模型
  • 不做数据处理、不做业务逻辑(只负责 AI 说话)

4. 和其他工具区别

  • Ollama:套壳简化版,底层还是调用 llama.cpp
  • Transformers:Python 重型框架,吃内存、依赖多
  • llama.cpp:原生最简内核,无冗余、最省资源

5. 常用两个核心程序

  1. llama-cli:命令行交互式聊天(你一直在用)
  2. llama-server:开启 HTTP 接口,网页 / 程序调用 AI
  3. 运行命令:
.\llama-cli.exe -m models/qwen2.5-0.5b-instruct-q2_k.gguf 
.\llama-server.exe -m models/qwen2.5-0.5b-instruct-q2_k.gguf 

 

 模型下载:https://modelscope.cn/models

image

 

posted on 2026-05-20 17:03  属于我的梦,明明还在  阅读(1)  评论(0)    收藏  举报