08 2025 档案

摘要：

基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。阅读全文

posted @ 2025-08-08 17:48 GPUStack 阅读(1719) 评论(0) 推荐(0)

gpustack