AI利器，Ollama本地启动并运行大型语言模型

什么是 Ollama ？正如 Ollama 官方仓库所说：本地启动并运行大型语言模型。 Ollama仓库创建于 2023年6月26日。

Get up and running with OpenAI gpt-oss, DeepSeek-R1, Gemma 3 and other models.
官方网站:
https://github.com/ollama/ollama
https://ollamacn.com/
https://ollama.com/
与基于云端的语言模型服务不同，Ollama 用户可以在自己的本地设备上运行语言模型，Ollama 是一个开源的大型语言模型服务工具，旨在帮助用户快速在本地运行和测试大模型。通过简单的指令，用户就可以通过一条条命令轻松启动和运行开源的大型语言模型。它提供了一个简洁易用的命令行界面，专为本地构建大型语言模型应用而设计。用户可以在https://ollama.com/models 看到支持的各种开源大数据模型。
Ollama 用Docker 容器安装的方式，极大地简化了部署和管理大型语言模型的过程，官方的docker镜像在这里下载 https://hub.docker.com/r/ollama/ollama

Ollama 及其支持的模型完全开源且免费，用户可以随时访问和使用这些资源，而无需支付任何费用。
源码地址: https://github.com/ollama/ollama

ollama 用的go语言进行的开发,你可以自己编译ollama

Ollama 无需复杂的配置和安装过程，只需几条简单的命令即可启动和运行，为用户节省了大量时间和精力。 Ollama 支持包括 Llama3.1、Gemma2、Qwen2 在内的众多热门开源 LLM，用户可以轻松一键下载和切换模型，享受丰富的选择。。Ollama 将模型权重、配置和数据捆绑成一个包，定义为 Modelfile，使得模型管理更加简便和高效。 Ollama 支持使用 Llama 3.1 等模型进行工具调用。这使模型能够使用它所知道的工具来响应给定的提示，从而使模型能够执行更复杂的任务。 Ollama 优化了设置和配置细节，包括 GPU 使用情况，从而提高了模型运行的效率，确保在资源有限的环境下也能顺畅运行。 Ollama 所有数据处理都在本地机器上完成，可以保护用户的隐私。 Ollama 拥有一个庞大且活跃的社区，用户可以轻松获取帮助、分享经验，并积极参与到模型的开发和改进中，共同推动项目的发展。

Ollama 提供了多种安装方式，支持 Mac、Linux 和 Windows 平台，并提供 Docker 镜像，满足不同用户的需求。

Windows系统官方建议从官网下载安装包，安装时会自动配置环境变量，默认安装路径为C:\Users\[用户名]\AppData\Local\Programs\Ollama。Linux/macOS用户可通过curl -fsSL https://ollama.ai/install.sh | sh完成安装，Docker用户使用 docker pull ollama/ollama获取镜像。内存配置方面，7B模型需8GB内存，13B模型需16GB，33B模型建议32GB以上内存环境。

举例: Ollama windows 本地部署全流程演示
1. 进入Ollama 官网 https://ollama.com/ ，点击“Download”按钮。
选择操作系统（以Windows为例），点击下载 https://ollama.com/download/OllamaSetup.exe , 下载完成后，得到“OllamaSetup.exe”文件，运行该文件。
点击“Install”开始安装，按照提示完成安装。
2.安装完成后，在开始菜单中搜索“cmd”，打开“命令提示符”。
在“ 命令提示符”中输入“ollama”，按回车键，如果看到下面的输出，说明Ollama已正确安装。

3. ollama安装默认模型 gemma3

https://ollama.com/library/gemma3

4.安装其他模型

你也可回到Ollama官网首页，点击最上方的“Search models”，选择一个模型，例如 “qwen3-vl:2b”。
https://ollama.com/library/qwen3-vl

大模型的“2b”、“32b”等指标代表模型的参数量级，比如“2b”表示模型参数有20亿个，“32b”表示参数有320亿个，这个数字越大，模型越复杂，性能也越好，但代价是电脑配置要求更高。比如，1.5b要求至少1G显存，7b、8b是6G显存、14b是11G显存、32b是22G显存、70b是80G显存等。我选择了更低的2b，保证运行

下载该模型

运行命令 ollama run qwen3-vl:2b，等待下载完成（可能需要一些时间）。

5. 在“命令提示符”中输入“ollama list”，按回车键，显示目前已下载的模型列表

6.运行模型示例

在“命令提示符”中输入“ollama run gemma3” ，按回车键。

如果想退出，只要ctrl+d即可

7.简单使用
首先运行模型，然后你可以输入中文或英文文字以及拖拽图片到命令行窗口，比如今天吃什么

C:\Users\king>ollama run qwen3-vl:2b
>>> 今天吃什么
Thinking...
嗯，用户问“今天吃什么”，看起来是个简单的问题，但得仔细琢磨。用户可能是在发愁吃什么，或者只是随便问问？不过考虑到这
个对话的背景，更像是用户在想吃点东西，可能是在手机上随便问的，但其实可能有隐藏需求。

首先得分析用户可能的情况。可能用户现在很饿，或者正在计划一天的饮食，也有可能是开玩笑或者测试我的反应。不过更可能的是
，用户是在手机上随便问，所以得给出一个友好又实用的回答。

然后要考虑用户的潜在需求。比如，用户可能想吃点健康的，或者想省钱，或者想吃点特别的东西。不过用户没有说，所以得保持通
用。同时，用户可能还隐含了“现在”这个时间点，所以可能要给出即时的建议。

接下来，得确定回答的方向。比如，用户可能只是想要一个简单的答案，但作为AI，得给出全面一点的建议。不过用户可能希望我给
出一个具体的选择，所以得提供几种选择，比如不同类型的食品，或者适合不同情况的食物。

另外，可能用户有潜在的需求，比如最近有没有什么健康的食物，或者有没有什么特别的食物。不过这些都是推测，得基于常见情况
来回答。

然后要考虑语言风格。用户问“今天吃什么”，可能是在手机上随便问的，所以语气要轻松，友好一点，不用太学术。比如，用“今
天”的时间点来回答，提供一些具体的选择。

还要注意用户可能存在的文化背景。比如，在中国，可能更倾向于推荐一些常见的食物，比如米饭、面条、蔬菜之类的。所以可以提
供一些经典的推荐，比如炒饭、面食等。

另外，用户可能有其他需求，比如想吃点有营养的，或者想吃点特别的。所以得考虑提供多样化，比如有些食物可能有不同营养搭配
。

然后思考如何组织回答。首先给出一个推荐，比如推荐一顿饭，然后提供几个选项，这样用户可以有选择。同时，提醒用户注意食材
新鲜，避免过量摄入等。

最后，检查是否有遗漏的情况。比如，用户可能在问是否有什么特别的东西，比如点外卖之类的。不过这些是推测，得确保回答有普
遍性。

现在总结一下：用户问“今天吃什么”，可能需要推荐一种适合当天的健康食品，给出具体的例子，比如推荐炒饭、面食等。注意回
答要具体，有实例，同时提醒用户注意食材新鲜和搭配营养。避免太笼统，要给出具体的选择。
...done thinking.

今天可以试试**番茄炒蛋+清炒时蔬**，这样既营养又快手！
🔥 **为什么推荐**：
- 每100克番茄含90%以上维生素C，酸甜开胃还补铁；
- 鸡蛋黄里有丰富的DHA，适合孩子和老人；
- 时蔬搭配可以补充膳食纤维，让肠胃更舒服。

🥗 **小贴士**：
- 拌个凉拌黄瓜，清脆爽口；
- 三明治里夹点烤鸡胸肉，补充优质蛋白质；
- 饮食要均衡，少油少盐，多吃新鲜蔬菜水果哦！

需要我帮你规划一份早餐/晚餐方案吗？可以告诉我你想要的口味（比如清淡/香辣）或者偏好（比如素食/荤食），我来给你详细推
荐～ 😋

8.ollama 的命令使用
1）显示模型的信息

C:\Users\king>ollama show qwen3-vl:2b
Model
architecture qwen3vl
parameters 2.1B
context length 262144
embedding length 2048
quantization Q4_K_M

Capabilities
completion
vision
tools
thinking

Parameters
temperature 1
top_k 20
top_p 0.95

License
Apache License
Version 2.0, January 2004
...

2) 显示其他参数

C:\Users\king>ollama
Usage:
ollama [flags]
ollama [command]

Available Commands: 有效命令如下
serve Start ollama(启动ollama)
create Create a model(创建一个模型)
show Show information for a model(显示某个模型的信息)
run Run a model(运行一个模型)
stop Stop a running model(停止运行模型)
pull Pull a model from a registry(拉取一个模型)
push Push a model to a registry 将一个模型推送到一个模型仓库。
signin Sign in to ollama.com
signout Sign out from ollama.com
list List models(列出下载的模型)
ps List running models（列出正在运行的模型，你可以打开两个命令行窗口进行测试）
cp Copy a model（复制一个模型）
rm Remove a model(删除一个模型)
help Help about any command

Flags:
-h, --help help for ollama
-v, --version Show version information

Use "ollama [command] --help" for more information about a command.

根据命令我们来做下示例：

命令	命令说明	示例
`ollama run`	运行模型。如果不存在则自动拉取、下载。	`ollama run qwen3-vl:2b`
`ollama pull`	拉取模型。从远程库中下载模型但不运行。	`ollama pull qwen3-vl:2b`
`ollama list`	列出模型。显示本地所有已下载的模型。	`ollama list` D:\ollama>ollama list NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 12 hours ago qwen3-vl:2b 0635d9d857d4 1.9 GB 3 weeks ago gemma3:latest a2af6cc3eb7f 3.3 GB 3 weeks ago gemma3:4b a2af6cc3eb7f 3.3 GB 3 weeks ago
`ollama rm`	删除模型。移除本地模型释放空间。	`ollama rm qwen3-vl:2b`
`ollama cp`	复制模型。将现有模型复制为新名称（用于测试）。	`ollama cp qwen3-vl:2b testmodel`
`ollama create`	创建模型。根据 Modelfile 创建自定义模型（高级）。	`ollama create mymodel -f ./qwen3-vl:2b`
`ollama show`	显示信息。查看模型的元数据、参数或 Modelfile。	`ollama show --modelfile qwen3-vl:2b` D:\ollama>ollama show --modelfile qwen3-vl:2b # Modelfile generated by "ollama show" # To build a new Modelfile based on this, replace FROM with: # FROM qwen3-vl:2b
`ollama ps`	查看进程。显示当前正在运行的模型及显存占用。	`ollama ps` 例如: D:\ollama>ollama ps NAME ID SIZE PROCESSOR CONTEXT UNTIL qwen3-vl:2b 0635d9d857d4 7.1 GB 100% CPU 4096 4 minutes from now #只有你提出问题之后，你才会看到上面的信息
`ollama push`	推送模型。将你自定义的模型上传到 ollama.com。	`ollama push my-username/my-model`
`ollama serve`	启动服务。启动 Ollama 的 API 服务（通常后台自动运行）。	`ollama serve (一般用于你编写的python调用模型脚本时，先启动ollama服务)`
`ollama help`	帮助。查看任何命令的帮助信息。	`ollama help run ollama help show ollama help rm` ....

9.切换思考模式

C:\Users\king>ollama run qwen3-vl:2b
>>> /set think
Set 'think' mode.  #已切换到深度思考模式

>>> /set nothink
Set 'nothink' mode. #已切换到非深度思考模式(不思考或会忽略一些问题)

>>> /?
Available Commands:
  /set            Set session variables
  /show           Show model information
  /load <model>   Load a session or model
  /save <model>   Save your current session
  /clear          Clear session context
  /bye            Exit
  /?, /help       Help for a command
  /? shortcuts    Help for keyboard shortcuts

Use """ to begin a multi-line message.
Use \path\to\file to include .jpg, .png, or .webp images.

>>> Send a message (/? for help)

通过这两个指令就能实现思考模式的切换

注：在新版的ollama指令已经抛弃掉了/set no_think指令，若使用/set nothink失败的话则为旧版ollama，可以手动升级ollama版本

10.测试api
需要启动rest api server (ollama serve...)

更多 api命令：https://github.com/ollama/ollama/blob/main/docs/api.md (ollama api命令)

1.命令行下启动键入 ollama serve (默认端口为11343)
  注意: ollama run 模型(ollama list 列出来的选一个)，他们可以同时启动
2.启动cygwin: 发出指令
$ curl http://localhost:11434/api/generate -d '{
  "model": "qwen3-vl:2b",  #我安装的模型
  "prompt":"冬天喝什么茶好？",  #提出的问题
  "stream":false
}'
#需要等待一段时间响应...
{"model":"qwen3-vl:2b","created_at":"2025-12-01T01:30:30.9051726Z","response":"在寒冷的冬季，选择合适的茶饮不仅能温暖身心，还能提升健康状态。
以下是针对冬季的茶饮推荐及科学依据，结合中医理论、现代营养学和日常养生实践，为你提供**安全、实用、可操作**的建议：\n\n---\n\n### 🌡️ 
**一、冬季喝茶的科学原理**\n**核心原则：温热、养胃、不伤阳气**  \n冬季气候寒冷，人体易出现“阳虚”状态（表现为怕冷、手脚冰凉），
中医认 为“阴盛阳虚”的人需要温热饮品，而现代营养学认为，温热饮品能促进血液循环、缓解关节僵硬，同时避免冷饮刺激肠胃。\n\n**注意事项：**  
\n- ❌ **避免喝太烫的茶**：过热茶会损伤消化道黏膜，影响消化功能。  
\n- ✅ **推荐温热程度**：茶汤温度适中（约60-70℃），既可暖胃又避免烫伤。\n\n---\n\n### 🌺 **二、冬季最适合的茶类推荐**\n#### **1. 红茶（推荐指数：
.... 其他省略...

11.llama3
ollama llama3 模型：https://ollama.com/library/llama3
一个详细介绍llama3 blog: https://ai.meta.com/blog/meta-llama-3/

llama4地址 : https://ollama.com/library/llama4

llama3 2024年4月上线 简短介绍
Meta Llama 3：迄今为止最强大的公开大型语言模型,Meta Llama 3 是由 Meta Inc. 开发的一系列模型，是全新的最先进产品，提供 8B 和 70B 参数大小（预训练或指令调优）。
Llama 3 的指令调优模型针对对话/聊天场景进行了精细调优，并在常见基准测试中优于许多现有的开源聊天模型。

1.打开cmd终端
   ollama run llama3
2.应用程序接口
  curl -X POST http://localhost:11434/api/generate -d '{
  "model": "llama3",  #前提你使用ollama run llama3或 ollama pull llama3 把模型下载下来
  "prompt":"Why is the sky blue?"
 }'
  #你就可以编写程序，对接 ollama 暴露的  http://localhost:11434/ 端口进行交互

3.ollama api指南
https://github.com/ollama/ollama/blob/main/docs/api.md
4.llama3官网
 https://www.llama.com/docs/model-cards-and-prompt-formats/llama4/
 目前已到llama4

参考:
https://github.com/ollama/ollama/blob/main/docs/api.md (ollama api命令)

https://github.com/orgs/huggingface/repositories?type=all

huggingface

posted @ 2024-02-23 13:23 jinzi 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部