llama.cpp 转化 gguf 文件

概览

llama.cpp 自带转化工具,把 safetensor 格式的模型文件转化为 gguf 格式,方便用 cpu 进行推理。
需要注意的是,必须连带下载和 safetensor 格式相关的一些配置文件,故转化文件对准的是一个目录。
但同时还要注意,有时模型作者为同一个模型保存了多种框架应用的模型文件,这些文件是没有用的,需要去除。

步骤

  1. 下载并编译 llama.cpp
  2. 先转化为 float16 格式的文件。
  3. 再转化为各种需要的格式。

具体

把转化程序对准 gpt-2 这个目录并转化为 float16 格式

python convert_hf_to_gguf.py models/gpt-2/

看看都可以转化成什么格式,我转化成 Q5_K_M 格式

./llama-quantize -h
./llama-quantize models/gpt-2/ggml-model-f16.gguf models/gpt-2/ggml-model-Q5_K_M.gguf Q5_K_M

试用

/llama-simple -m models/gpt-2/ggml-model-f16.gguf -p "Hello my name is" -n 32
posted @ 2024-07-17 21:30  立体风  阅读(2446)  评论(0)    收藏  举报