Linux 安装配置 Ollama

Ollama 是一个开源的大型语言模型本地化运行框架，它的核心目标是让任何人都能像安装普通软件一样，在自己的电脑或服务器上简单、快速地部署和运行各类大语言模型

与依赖网络的云服务（如 ChatGPT ）或复杂的专业部署工具相比，Ollama 主要解决了 “简便性” 和 “本地化” 两大痛点：

极简部署：一个命令完成安装，再一个命令下载和运行模型，无需处理复杂的 Python 环境、依赖或配置
隐私与安全：所有数据都在本地计算，不会上传到云端，适合处理敏感信息
离线可用：一旦下载模型，无需网络即可随时使用
成本可控：利用现有硬件，无需支付 API 调用费用，适合长期、高频使用
开放生态：支持众多开源模型，从轻量级到高性能，可按需选择

Ollama 核心优势

开箱即用：提供统一、简单的命令行接口。无论模型底层是 PyTorch 还是 GGUF 格式，用户只需关心 ollama run <模型名>
性能优化：内置高效推理引擎，对 CPU 和 GPU（尤其是NVIDIA）提供了良好支持，能自动利用硬件加速
开放模型库：内置 ollama pull 命令可直接从官方库下载数百个热门模型，也支持导入自定义模型
跨平台支持：完美支持 macOS、Linux、Windows。在 Linux 服务器上作为无界面后端服务运行时尤其稳定
生产就绪的 API：除了命令行交互，它还提供标准的 REST API（默认端口 11434），方便与其他应用（如聊天界面、自动化脚本）集成

Ollama 支持在纯 CPU 模式下运行，这是它的一大优势，但拥有显卡（尤其是 NVIDIA GPU）会大幅提升性能

为了高效使用 Ollama，需确保成功安装 NVIDIA drivers 和 CUDA

如下图所示，表示已成功安装

# 第一步：安装 Ollama，Ollama 提供了多种安装方式，其中使用官方安装脚本最为便捷

curl -fsSL https://ollama.com/install.sh | sh

# 第二步：管理 Ollama 服务

启动服务： systemctl start ollama # 启动 Ollama 后台服务

设置自启：systemctl enable ollama # 开机自动启动 Ollama

查看状态： systemctl status ollama # 检查服务是否正常运行

重启服务： systemctl restart ollama # 修改配置后重启生效

查看日志： journalctl -u ollama -f # 实时查看服务日志，用于排错

# 第三步：验证与基础使用

1. 拉取并运行模型

例如，拉取一个 gpt-oss:20b 模型进行对话：

# 拉取模型（首次使用会自动下载）

ollama pull gpt-oss:20b

# 启动对话

ollama run gpt-oss:20b

2. 以服务方式调用

更常见的用法是让 Ollama 在后台作为 API 服务，供其他程序调用。安装后它默认已在 http://127.0.0.1:11434 提供 API

测试：curl -s http://127.0.0.1:11434/api/tags | jq -r '.models[].name' 和 ollama list 可以列出已安装的模型

常见模型的对比：

# 第四步：常用命令与管理

ollama list # 列出本地所有模型

ollama pull <模型名> # 下载新模型（如：deepseek-v3:latest ）

ollama rm <模型名> # 删除本地模型

ollama cp <源> <目标> # 复制模型（创建新名称）

ollama show <模型名> # 查看模型的详细信息

ollama run deepseek-v3:latest "你是什么模型" # 直接运行一次性命令而不进入交互模式

# 其它主机访问

curl -sX POST http://ITCAI01:11434/api/generate -H "Content-Type: application/json" -d '{"model": "gpt-oss:20b","prompt": "你是什么模型","stream": false}' | jq -r '.response'

# -X POST 指定 POST 的请求类型

# -H（Header - 请求头）：控制通信的规则、格式和元信息，告诉服务器 "如何" 处理接下来的请求。"Content-Type: application/json" 指定 HTTP 头信息为 json 格式

# -d（Data - 请求体）：提供实际要发送的数据内容，告诉服务器 "具体做什么"，通常配合 -H 使用。model 指定使用的模型，prompt 输入给模型的提示词或问题，stream 控制响应数据是否以“流”的形式返回

model 指定要使用的模型

# 如果 Ollama 服务只监听本地端口（即 127.0.0.1 ），其它主机访问则需要如下设置：

# 临时设置（仅当前终端有效）

export OLLAMA_HOST="0.0.0.0:11434" # 允许网络其他主机访问

export OLLAMA_NUM_PARALLEL=50 # 设置并行请求数

export OLLAMA_MODELS="/path/to/your/models" # 自定义模型存储路径

# 永久设置（两种方法任选其一即可）

1. 将上述 export 行添加到你的 ~/.bashrc 文件中，然后执行 source ~/.bashrc

2. 设置 ollama systemd 服务的 service 文件，示例如下：

posted @ 2025-12-19 10:54 demoduan 阅读(127) 评论(0) 收藏举报

刷新页面返回顶部

demoduan

Linux 安装配置 Ollama

公告