统一的 Ollama 调用核心;ollama模型预热;Ollama 多模型占用显存分析;

1.统一的 Ollama 调用核心
合并多模态调用与纯文本模型调用

抽一个“统一的 Ollama 调用核心方法”,文本 / 多模态调用接口只负责:
prompt 怎么拼
images 要不要加

解析、判空、兜底逻辑在Ollama调用核心方法只写一遍

_call_ollama_core  → 协议 + 稳定性
_call_ollama       → 文本 prompt
_call_multimodal   → 图片 prompt

2.ollama模型预热
在正式接业务请求之前,先让 Ollama 把模型加载进显存,并成功走完一次推理路径

3.Ollama 多模型占用显存分析
是 Ollama 多模型 + Python 本地 OCR(marker-pdf) 🧠 python3.11 那 7GB,100% 是 OCR
sam3(gpu0)+ollama(调用模型自动分布gpu)+ollama_api的python程序中OCR(marker-pdf)(gpu1)
image

posted @ 2026-01-23 11:54  asphyxiasea  阅读(2)  评论(0)    收藏  举报