摘要: 之前训好的模型,推理服务是用 vllm 跑的,不过 vllm 会长期占用显存,在团队内资源紧张的情况下,不能长期启动服务。不巧的是时不时会需要访问这个服务,手动维护就很麻烦。 正好 Ollama 可以根据请求自动加载、释放模型,就打算把模型迁移到 Ollama 上进行推理。这里记录一下处理过程: 先 阅读全文
posted @ 2025-02-27 21:33 zion03 阅读(249) 评论(0) 推荐(0)