2025 年 2月 27 日随笔档案 - zion03

2025年2月27日

摘要：之前训好的模型，推理服务是用 vllm 跑的，不过 vllm 会长期占用显存，在团队内资源紧张的情况下，不能长期启动服务。不巧的是时不时会需要访问这个服务，手动维护就很麻烦。正好 Ollama 可以根据请求自动加载、释放模型，就打算把模型迁移到 Ollama 上进行推理。这里记录一下处理过程：先阅读全文

posted @ 2025-02-27 21:33 zion03 阅读(249) 评论(0) 推荐(0)

CD Yang

公告