08 2025 档案

摘要:忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。 阅读全文
posted @ 2025-08-08 17:48 GPUStack 阅读(1719) 评论(0) 推荐(0)