摘要: GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场 在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。 阅读全文
posted @ 2025-11-25 17:35 GPUStack 阅读(1523) 评论(0) 推荐(0)
摘要: 昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署 昇腾多机推理太复杂?易出错?试试 GPUStack 阅读全文
posted @ 2025-09-27 10:55 GPUStack 阅读(761) 评论(1) 推荐(0)
摘要: 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务 在 45 分钟内搭建 GPUStack 模型服务平台并运行生产级的 Qwen3 模型服务。 阅读全文
posted @ 2025-04-29 17:07 GPUStack 阅读(1619) 评论(0) 推荐(0)
摘要: GPUStack正式发布: 为大模型而生的开源GPU集群管理器 GPUStack 正式发布并开源,一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理器。 阅读全文
posted @ 2024-07-26 16:15 GPUStack 阅读(8502) 评论(0) 推荐(0)
摘要: NVIDIA H200/H20 DeepSeek-V4-Pro 部署指南、压测性能与稳定性调优建议 NVIDIA H200/H20 141GB 环境部署 DeepSeek-V4-Pro 的实践教程、压测性能表现,以及针对压测表现提供的稳定性配置建议。 阅读全文
posted @ 2026-04-28 10:16 GPUStack 阅读(999) 评论(3) 推荐(2)
摘要: Day 0 部署:昇腾 910B DeepSeek-V4 部署指南与压测表现 在昇腾 910B 环境部署 DeepSeek-V4 的实践教程。 阅读全文
posted @ 2026-04-27 13:05 GPUStack 阅读(1258) 评论(1) 推荐(5)
摘要: vLLM 和 SGLang 对 Qwen3.6-27B 的完整部署测试教程与性能测试表现 阅读全文
posted @ 2026-04-23 18:10 GPUStack 阅读(809) 评论(0) 推荐(0)
摘要: 多节点 Data Parallel 部署可基于各节点负载动态分发请求,减少长请求阻塞带来的性能抖动,在高并发场景下提升整体吞吐稳定性。 阅读全文
posted @ 2026-04-21 14:27 GPUStack 阅读(141) 评论(0) 推荐(0)
摘要: 在当前大模型推理逐步走向生产化的背景下,如何在多样化硬件环境上高效、稳定地管理推理服务,在工程落地中尤其关键。尤其是在国产 GPU 场景中,不同推理引擎、驱动栈与部署方式之间的组合复杂度明显提升,单纯依赖手工部署或脚本维护,往往难以兼顾效率与可运维性。 GPUStack 是面向生产环境的开源 AI 阅读全文
posted @ 2026-04-15 09:45 GPUStack 阅读(91) 评论(0) 推荐(0)
摘要: 本文基于 Qwen3.5 在 H100/H200 上的实测,分析 vLLM performance-mode 的实际作用。结果表明,它并非独立提速手段,而是结合量化、cache 等优化,用于收敛低延迟或高吞吐目标,主要价值在于缩小调优范围。 阅读全文
posted @ 2026-04-08 14:15 GPUStack 阅读(130) 评论(0) 推荐(0)
摘要: 随着多模态和智能体能力逐渐成为大模型的标配,如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期,Gemma 4 正式发布,模型能力对标 Qwen 3.5,在推理能力、多模态支持以及工具调用等方面都有明显提升。 以下为 Gemma 4 不同型号的简要介绍: 模型 上下文 能力 多模态理解 阅读全文
posted @ 2026-04-07 10:24 GPUStack 阅读(1090) 评论(0) 推荐(0)
摘要: 在昇腾(Ascend)生态中,vLLM 等推理引擎在生成类任务中表现出色,已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下,mis-tei 作为专用推理组件,同样提供了高效且更贴合场景的能力。 mis-tei 专注于文本向量生成与重排序能力,广泛应用于检索增强(RAG) 阅读全文
posted @ 2026-04-01 09:58 GPUStack 阅读(91) 评论(0) 推荐(0)
摘要: 会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服务平台。 同时,本次 Meetup 还将带来多项前沿实践与进 阅读全文
posted @ 2026-03-27 11:18 GPUStack 阅读(20) 评论(0) 推荐(0)
摘要: 会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服务平台。 同时,本次 Meetup 还将带来多项前沿实践与进 阅读全文
posted @ 2026-03-25 10:41 GPUStack 阅读(11) 评论(0) 推荐(0)