初探大模型-2-Ollama安装以及使用Ollama部署LLM

此Blog仅作为日常学习工作中记录使用,Blog中有不足之处欢迎指出

本次Blog为Linux版本的安装、部署

一、何为Ollama

​ Ollama是一个开源的 LLM(大型语言模型)本地部署服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型,包括如Llama 3、Phi 3、Mistral、Gemma、ChatGLM等开源的大型语言模型,以及Embedding模型。

​ Ollama优势在于:快速部署、便于集成(可以通过接口调用形式与Spring AI集成,以及集成至Dify、FastGPT、Coze等类似的LLM应用开发平台)。

二、Ollama怎么安装

官方安装

  1. 下载
curl -fsSL https://ollama.com/install.sh | sh
  1. 修改配置(可选,主要是完成Ollama接口暴露,便于其他服务器或通过公网调用)
export OLLAMA_HOST=0.0.0.0:11434
  1. 设置启动
sudo systemctl enable ollama  

sudo systemctl start ollama

魔搭社区安装(推荐)

可参考这里进行安装

三、怎么基于Ollama部署LLM

Ollama常用命令

ollama serve # 启动ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型
ollama pull # 从注册仓库中拉去模型
ollama push # 将模型推到注册仓库中
ollama ps # 列出正在运行的模型
ollama list # 列出本地模型
ollama cp # 复制模型
ollama rm # 删除模型

从Ollama仓库下载方式

启动Ollama后,使用ollama pullollama run等方式拉取模型,简单,略。

部署自定义大模型

拉取GGUF格式的大模型文件

GGUF(GPT-Generated Unified Format)文件。优化大型机器学习模型的存储和加载效率,通过紧凑的二进制编码、优化的数据结构以及内存映射等技术,实现模型数据的高效存储、传输和快速加载。GGUF不仅支持多种模型格式,还具备跨硬件平台优化的特点,能够在CPU和GPU等不同设备上高效运行。

从Huggingface或ModelScope下载。Huggingface的镜像地址为hf-mirror.com

以ModelScope为例,使用ollama拉取的命令为:

ollama run modelscope.cn/{username}/{model}:{modelname}

例子:

ollama run modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF:DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf

Huggingface类似

ollama run hf.co/{username}/{repository}:{quantization}
# 可将hf.co替换为hf-mirror.com

根据modelfile创建模型

在使用ModelScope和Huggingface直接拉取GGUF格式大模型时,MS和Hf会自动生成对应的Modelfile文件,自动生成每个模型需要的配置与参数,包括推理模版(Template),模型参数(Parameters)等等。

若是单独下载的GGUF模型,可通过创建modelfile文件,在该文件中配置参数,其中配置GGUF文件位置必须,其他可选。

之后执行

ollama create {model_name} -f {modelfile_path}

最后执行

ollama run {model_name}

启动模型。

posted @ 2025-05-30 17:40  AfroNicky  阅读(337)  评论(0)    收藏  举报