统一的 Ollama 调用核心;ollama模型预热;Ollama 多模型占用显存分析;
1.统一的 Ollama 调用核心
合并多模态调用与纯文本模型调用
抽一个“统一的 Ollama 调用核心方法”,文本 / 多模态调用接口只负责:
prompt 怎么拼
images 要不要加
解析、判空、兜底逻辑在Ollama调用核心方法只写一遍
_call_ollama_core → 协议 + 稳定性
_call_ollama → 文本 prompt
_call_multimodal → 图片 prompt
2.ollama模型预热
在正式接业务请求之前,先让 Ollama 把模型加载进显存,并成功走完一次推理路径
3.Ollama 多模型占用显存分析
是 Ollama 多模型 + Python 本地 OCR(marker-pdf) 🧠 python3.11 那 7GB,100% 是 OCR
sam3(gpu0)+ollama(调用模型自动分布gpu)+ollama_api的python程序中OCR(marker-pdf)(gpu1)

浙公网安备 33010602011771号