08 2025 档案
摘要:
基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。
阅读全文
基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。
阅读全文

浙公网安备 33010602011771号