初探大模型-2-Ollama安装以及使用Ollama部署LLM

此Blog仅作为日常学习工作中记录使用，Blog中有不足之处欢迎指出

本次Blog为Linux版本的安装、部署

一、何为Ollama

Ollama是一个开源的 LLM（大型语言模型）本地部署服务工具，用于简化在本地运行大语言模型，降低使用大语言模型的门槛，使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型，包括如Llama 3、Phi 3、Mistral、Gemma、ChatGLM等开源的大型语言模型，以及Embedding模型。

Ollama优势在于：快速部署、便于集成（可以通过接口调用形式与Spring AI集成，以及集成至Dify、FastGPT、Coze等类似的LLM应用开发平台）。

二、Ollama怎么安装

官方安装

下载

curl -fsSL https://ollama.com/install.sh | sh

修改配置（可选，主要是完成Ollama接口暴露，便于其他服务器或通过公网调用）

export OLLAMA_HOST=0.0.0.0:11434

设置启动

sudo systemctl enable ollama  

sudo systemctl start ollama

魔搭社区安装（推荐）

可参考这里进行安装

三、怎么基于Ollama部署LLM

Ollama常用命令

ollama serve # 启动ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型
ollama pull # 从注册仓库中拉去模型
ollama push # 将模型推到注册仓库中
ollama ps # 列出正在运行的模型
ollama list # 列出本地模型
ollama cp # 复制模型
ollama rm # 删除模型

从Ollama仓库下载方式

启动Ollama后，使用ollama pull或ollama run等方式拉取模型，简单，略。

部署自定义大模型

拉取GGUF格式的大模型文件

GGUF（GPT-Generated Unified Format）文件。优化大型机器学习模型的存储和加载效率，通过紧凑的二进制编码、优化的数据结构以及内存映射等技术，实现模型数据的高效存储、传输和快速加载。GGUF不仅支持多种模型格式，还具备跨硬件平台优化的特点，能够在CPU和GPU等不同设备上高效运行。

从Huggingface或ModelScope下载。Huggingface的镜像地址为hf-mirror.com

以ModelScope为例，使用ollama拉取的命令为：

ollama run modelscope.cn/{username}/{model}:{modelname}

例子：

ollama run modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF:DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf

Huggingface类似

ollama run hf.co/{username}/{repository}:{quantization}
# 可将hf.co替换为hf-mirror.com

根据modelfile创建模型

在使用ModelScope和Huggingface直接拉取GGUF格式大模型时，MS和Hf会自动生成对应的Modelfile文件，自动生成每个模型需要的配置与参数，包括推理模版（Template），模型参数（Parameters）等等。

若是单独下载的GGUF模型，可通过创建modelfile文件，在该文件中配置参数，其中配置GGUF文件位置必须，其他可选。

之后执行

ollama create {model_name} -f {modelfile_path}

最后执行

ollama run {model_name}

启动模型。

posted @ 2025-05-30 17:40 AfroNicky 阅读(423) 评论(0) 收藏举报

刷新页面返回顶部

AfroNicky