初探大模型-2-Ollama安装以及使用Ollama部署LLM
本次Blog为Linux版本的安装、部署
一、何为Ollama
Ollama是一个开源的 LLM(大型语言模型)本地部署服务工具,用于简化在本地运行大语言模型,降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新大语言模型,包括如Llama 3、Phi 3、Mistral、Gemma、ChatGLM等开源的大型语言模型,以及Embedding模型。
Ollama优势在于:快速部署、便于集成(可以通过接口调用形式与Spring AI集成,以及集成至Dify、FastGPT、Coze等类似的LLM应用开发平台)。
二、Ollama怎么安装
官方安装
- 下载
curl -fsSL https://ollama.com/install.sh | sh
- 修改配置(可选,主要是完成Ollama接口暴露,便于其他服务器或通过公网调用)
export OLLAMA_HOST=0.0.0.0:11434
- 设置启动
sudo systemctl enable ollama
sudo systemctl start ollama
魔搭社区安装(推荐)
可参考这里进行安装
三、怎么基于Ollama部署LLM
Ollama常用命令
ollama serve # 启动ollama
ollama create # 从模型文件创建模型
ollama show # 显示模型信息
ollama run # 运行模型
ollama pull # 从注册仓库中拉去模型
ollama push # 将模型推到注册仓库中
ollama ps # 列出正在运行的模型
ollama list # 列出本地模型
ollama cp # 复制模型
ollama rm # 删除模型
从Ollama仓库下载方式
启动Ollama后,使用ollama pull或ollama run等方式拉取模型,简单,略。
部署自定义大模型
拉取GGUF格式的大模型文件
GGUF(GPT-Generated Unified Format)文件。优化大型机器学习模型的存储和加载效率,通过紧凑的二进制编码、优化的数据结构以及内存映射等技术,实现模型数据的高效存储、传输和快速加载。GGUF不仅支持多种模型格式,还具备跨硬件平台优化的特点,能够在CPU和GPU等不同设备上高效运行。
从Huggingface或ModelScope下载。Huggingface的镜像地址为hf-mirror.com
以ModelScope为例,使用ollama拉取的命令为:
ollama run modelscope.cn/{username}/{model}:{modelname}
例子:
ollama run modelscope.cn/unsloth/DeepSeek-R1-Distill-Qwen-14B-GGUF:DeepSeek-R1-Distill-Qwen-14B-Q4_K_M.gguf
Huggingface类似
ollama run hf.co/{username}/{repository}:{quantization}
# 可将hf.co替换为hf-mirror.com
根据modelfile创建模型
在使用ModelScope和Huggingface直接拉取GGUF格式大模型时,MS和Hf会自动生成对应的Modelfile文件,自动生成每个模型需要的配置与参数,包括推理模版(Template),模型参数(Parameters)等等。
若是单独下载的GGUF模型,可通过创建modelfile文件,在该文件中配置参数,其中配置GGUF文件位置必须,其他可选。
之后执行
ollama create {model_name} -f {modelfile_path}
最后执行
ollama run {model_name}
启动模型。

浙公网安备 33010602011771号