HF 格式模型导入 Ollama 进行推理
之前训好的模型,推理服务是用 vllm 跑的,不过 vllm 会长期占用显存,在团队内资源紧张的情况下,不能长期启动服务。不巧的是时不时会需要访问这个服务,手动维护就很麻烦。
正好 Ollama 可以根据请求自动加载、释放模型,就打算把模型迁移到 Ollama 上进行推理。这里记录一下处理过程:
- 先将 HuggingFace 格式的模型转换成 GGUF 格式:
# 准备环境
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# 执行转换
python convert_hf_to_gguf.py python convert_hf_to_gguf.py /home/ubuntu/ycd/cpt-models/afsim_3b_bf16_save_pretrained/ \
--outfile afsim_3b.gguf
- 编写 Ollama 的
Modelfile
FROM ./afsim_3b.gguf
# 模型基本信息
PARAMETER stop "<|im_end|>"
PARAMETER stop "<|endoftext|>"
PARAMETER stop "<|user|>"
PARAMETER stop "<|assistant|>"
# 模型参数设置(optional)
PARAMETER temperature 0.2
PARAMETER top_k 40
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
# 系统提示,可以根据需要调整
SYSTEM """你是一个由 CD Yang 开发的代码助手,擅长代码开发、调试和解释。请用简洁、专业、友好的方式回答用户的问题。"""
# 模型格式设置,具体模板要根据模型的 chat template 来确定
TEMPLATE """<|im_start|>system
{{ .System }}<|im_end|>
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
- 导入 Ollama
ollama create afsim-3b
- 确认 Ollama 中已经导入成功
ollama list
-----------------------
NAME ID SIZE MODIFIED
afsim-3b:latest b9d0d255b040 6.2 GB 14 seconds ago
此时就可以跟 Ollama 官方支持的模型一样使用推理服务了。

浙公网安备 33010602011771号