GPUStack - 博客园

[置顶] GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

摘要：

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

在大模型推理的下半场，GPUStack v2 不再是简单的模型服务平台，而是高性能推理生态的协调者与赋能者。阅读全文

posted @ 2025-11-25 17:35 GPUStack 阅读(1268) 评论(0) 推荐(0)

[置顶] 昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

摘要：

昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

昇腾多机推理太复杂？易出错？试试 GPUStack 阅读全文

posted @ 2025-09-27 10:55 GPUStack 阅读(682) 评论(1) 推荐(0)

[置顶] 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

摘要：

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

在 45 分钟内搭建 GPUStack 模型服务平台并运行生产级的 Qwen3 模型服务。阅读全文

posted @ 2025-04-29 17:07 GPUStack 阅读(1490) 评论(0) 推荐(0)

[置顶] GPUStack正式发布: 为大模型而生的开源GPU集群管理器

摘要：

GPUStack正式发布: 为大模型而生的开源GPU集群管理器

GPUStack 正式发布并开源，一个用于运行 LLM（大型语言模型）的开源 GPU 集群管理器。阅读全文

posted @ 2024-07-26 16:15 GPUStack 阅读(7689) 评论(0) 推荐(0)

2026年2月3日

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理

摘要：最近，推理引擎领域出现了两件具有标志意义的事件：vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact，完成 1.5 亿美元融资，估值达 8 亿美元：图源：Inferact SGLang 团队也成立了 RadixArk，同样获得融资，估值达到 4 亿美元：图源：Ra 阅读全文

posted @ 2026-02-03 11:25 GPUStack 阅读(87) 评论(0) 推荐(0)

2026年1月23日

GPUStack 实战：n8n 接入本地模型，零成本打造 AI 资讯助手

摘要：

GPUStack 实战：n8n 接入本地模型，零成本打造 AI 资讯助手

通过 n8n 接入 GPUStack 本地模型，构建一个自动抓取 RSS、生成摘要并邮件推送的 AI 资讯助手。全流程本地运行，零 API 成本，数据不出域，快速体验私有化 AI 自动化。阅读全文

posted @ 2026-01-23 12:28 GPUStack 阅读(39) 评论(0) 推荐(0)

2026年1月9日

GPUStack 自定义后端系列 | MinerU：打造超强 PDF 文档解析服务

摘要：

GPUStack 自定义后端系列 | MinerU：打造超强 PDF 文档解析服务

GPUStack v2 自定义后端功能实战！本文以 MinerU 为例，手把手教你快速接入并运行超强 PDF 解析工具，轻松构建私有化文档提取服务。阅读全文

posted @ 2026-01-09 11:48 GPUStack 阅读(182) 评论(0) 推荐(0)

2026年1月6日

释放H200全部潜力：DeepSeek-V3.2推理性能提升161%的优化秘籍

摘要：

释放H200全部潜力：DeepSeek-V3.2推理性能提升161%的优化秘籍

相比于未优化的 vLLM 基线，经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了 57.8% 至 153.6% 的吞吐量提升。阅读全文

posted @ 2026-01-06 15:38 GPUStack 阅读(207) 评论(0) 推荐(1)

2025年12月29日

GPUStack Windows（WSL2）部署指南

摘要：

GPUStack Windows（WSL2）部署指南

在 WSL2（Windows Subsystem for Linux）中配置 NVIDIA GPU 并部署 GPUStack。阅读全文

posted @ 2025-12-29 11:54 GPUStack 阅读(260) 评论(0) 推荐(0)

2025年10月21日

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南

摘要：

0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南

一键跑通 PaddleOCR-VL，极速体验行业顶尖的文档解析实力。阅读全文

posted @ 2025-10-21 09:27 GPUStack 阅读(1269) 评论(0) 推荐(1)

2025年8月8日

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

摘要：

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。阅读全文

posted @ 2025-08-08 17:48 GPUStack 阅读(1793) 评论(0) 推荐(0)

2025年7月28日

GPUStack v0.7重磅发布：macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

摘要：

GPUStack v0.7重磅发布：macOS与Windows安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

GPUStack v0.7 提供了 70 余项功能优化与稳定性修复，涵盖推理加速与性能优化、开箱即用与用户交互、生产落地与多场景兼容性、运维运营能力等多个方面，进一步提升平台的可用性与工程稳定性，助力用户轻松构建高性能、可扩展的大模型服务体系！阅读全文

posted @ 2025-07-28 14:02 GPUStack 阅读(992) 评论(0) 推荐(0)