统一的 Ollama 调用核心；ollama模型预热；Ollama 多模型占用显存分析；

1.统一的 Ollama 调用核心
合并多模态调用与纯文本模型调用

抽一个“统一的 Ollama 调用核心方法”，文本 / 多模态调用接口只负责：
prompt 怎么拼
images 要不要加

解析、判空、兜底逻辑在Ollama调用核心方法只写一遍

_call_ollama_core  → 协议 + 稳定性
_call_ollama       → 文本 prompt
_call_multimodal   → 图片 prompt

2.ollama模型预热
在正式接业务请求之前，先让 Ollama 把模型加载进显存，并成功走完一次推理路径

3.Ollama 多模型占用显存分析
是 Ollama 多模型 + Python 本地 OCR（marker-pdf） 🧠 python3.11 那 7GB，100% 是 OCR
sam3(gpu0)+ollama(调用模型自动分布gpu)+ollama_api的python程序中OCR（marker-pdf）（gpu1）

posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

统一的 Ollama 调用核心；ollama模型预热；Ollama 多模型占用显存分析；

公告