GPUStack

[置顶] GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

摘要：

在大模型推理的下半场，GPUStack v2 不再是简单的模型服务平台，而是高性能推理生态的协调者与赋能者。阅读全文

posted @ 2025-11-25 17:35 GPUStack 阅读(1731) 评论(0) 推荐(0)

[置顶] 昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

摘要：

昇腾多机推理太复杂？易出错？试试 GPUStack 阅读全文

posted @ 2025-09-27 10:55 GPUStack 阅读(855) 评论(1) 推荐(0)

[置顶] 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

摘要：

在 45 分钟内搭建 GPUStack 模型服务平台并运行生产级的 Qwen3 模型服务。阅读全文

posted @ 2025-04-29 17:07 GPUStack 阅读(1695) 评论(0) 推荐(0)

[置顶] GPUStack正式发布: 为大模型而生的开源GPU集群管理器

摘要：

GPUStack 正式发布并开源，一个用于运行 LLM（大型语言模型）的开源 GPU 集群管理器。阅读全文

posted @ 2024-07-26 16:15 GPUStack 阅读(9526) 评论(0) 推荐(0)

2026年7月7日

你的 GPU 算力，到底被谁、用在了哪儿？GPUStack 用量统计上线，一张图说清楚

摘要： GPUStack 全新的用量统计（Usage）功能正式上线了——Token 消耗、GPU/CPU 实例运行时长、存储容量占用，三类资源的消耗一目了然。谁在用、用了多少、花在了哪个模型上，再也不用靠猜。阅读全文

posted @ 2026-07-07 11:32 GPUStack 阅读(101) 评论(0) 推荐(1)

2026年7月2日

Day 0 实测｜在 GPUStack 上部署 DeepSeek-V4-Flash-DSpark，吞吐直接翻倍

摘要：本文由 GPUStack 社区用户实测分享整理。DeepSeek-V4-Flash-DSpark 是在 DeepSeek-V4-Flash 基础上挂载了投机解码（Speculative Decoding）模块的增强版本——同一份权重，额外的投机模块，让吞吐和首 Token 时延同时变好。社区用户拿阅读全文

posted @ 2026-07-02 15:31 GPUStack 阅读(93) 评论(0) 推荐(1)

2026年6月18日

MiniMax-M3 开源实测：部署、推理与基准测试全记录

摘要：

MiniMax-M3 是 MiniMax 最新开源的原生多模态大模型，约428B 总参数/23B激活参数，原生支持1M上下文。本文基于 GPUStack 与VLLM，演示从镜像与权重准备、模型部署、对话实测到基准测试的完整流程，并实测了基于 EAGLE3 的投机解码加速。阅读全文

posted @ 2026-06-18 10:22 GPUStack 阅读(322) 评论(0) 推荐(0)

2026年6月1日

没有 GPU，还能跑大模型吗？vLLM vs llama.cpp 实测对比

摘要：没有 GPU，还能跑大模型吗？vLLM vs llama.cpp 实测对比在没有 GPU 的情况下，大模型还能不能“真正可用”？本文基于 GPUStack，对 vLLM-CPU 与 llama.cpp 进行完整实测，对比两者在纯 CPU 环境下的部署方式、推理性能、高并发表现与实际适用场景。关注阅读全文

posted @ 2026-06-01 12:10 GPUStack 阅读(314) 评论(0) 推荐(1)

2026年5月25日

MiniCPM-V 4.6 部署实战：基于 GPUStack 与 SGLang 的端侧多模态模型部署

摘要： MiniCPM-V 4.6 部署实战：基于 GPUStack 与 SGLang 的端侧多模态模型部署 MiniCPM-V 4.6 是 1.3B 参数的轻量级多模态模型，支持图像、视频理解。本文演示了基于 GPUStack 与 SGLang 的部署、测试与视觉 token 压缩配置流程。关注🌟⌈G 阅读全文

posted @ 2026-05-25 18:32 GPUStack 阅读(259) 评论(0) 推荐(0)

2026年4月28日

NVIDIA H200/H20 DeepSeek-V4-Pro 部署指南、压测性能与稳定性调优建议

摘要：

NVIDIA H200/H20 141GB 环境部署 DeepSeek-V4-Pro 的实践教程、压测性能表现，以及针对压测表现提供的稳定性配置建议。阅读全文

posted @ 2026-04-28 10:16 GPUStack 阅读(3510) 评论(3) 推荐(2)

2026年4月27日

Day 0 部署：昇腾 910B DeepSeek-V4 部署指南与压测表现

摘要：

在昇腾 910B 环境部署 DeepSeek-V4 的实践教程。阅读全文

posted @ 2026-04-27 13:05 GPUStack 阅读(3604) 评论(3) 推荐(5)

2026年4月23日

27B 超越 397B，Qwen3.6 模型 vLLM vs SGLang 部署指南与性能表现

摘要： vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现阅读全文

posted @ 2026-04-23 18:10 GPUStack 阅读(2532) 评论(0) 推荐(0)

2026年4月21日

Ascend 910B 多机分布式部署 Qwen3.5-397B-A17B

摘要：多节点 Data Parallel 部署可基于各节点负载动态分发请求，减少长请求阻塞带来的性能抖动，在高并发场景下提升整体吞吐稳定性。阅读全文

posted @ 2026-04-21 14:27 GPUStack 阅读(489) 评论(0) 推荐(0)

2026年4月15日

在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维

摘要：在当前大模型推理逐步走向生产化的背景下，如何在多样化硬件环境上高效、稳定地管理推理服务，在工程落地中尤其关键。尤其是在国产 GPU 场景中，不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升，单纯依赖手工部署或脚本维护，往往难以兼顾效率与可运维性。 GPUStack 是面向生产环境的开源 AI 阅读全文

posted @ 2026-04-15 09:45 GPUStack 阅读(387) 评论(0) 推荐(0)

公告