GPUStack

2026年4月8日

vLLM 新参数 performance-mode 能带来多大提升？Qwen3.5 实测告诉你答案

摘要：本文基于 Qwen3.5 在 H100/H200 上的实测，分析 vLLM performance-mode 的实际作用。结果表明，它并非独立提速手段，而是结合量化、cache 等优化，用于收敛低延迟或高吞吐目标，主要价值在于缩小调优范围。阅读全文

posted @ 2026-04-08 14:15 GPUStack 阅读(309) 评论(0) 推荐(0)

2026年4月7日

挑战 Qwen 3.5：Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程

摘要：随着多模态和智能体能力逐渐成为大模型的标配，如何在本地环境中高效部署正在成为越来越多开发者关注的重点。近期，Gemma 4 正式发布，模型能力对标 Qwen 3.5，在推理能力、多模态支持以及工具调用等方面都有明显提升。以下为 Gemma 4 不同型号的简要介绍：模型上下文能力多模态理解阅读全文

posted @ 2026-04-07 10:24 GPUStack 阅读(1464) 评论(0) 推荐(0)

2026年4月1日

vLLM Ascend 是最优解吗？基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理

摘要：在昇腾（Ascend）生态中，vLLM 等推理引擎在生成类任务中表现出色，已被广泛采用。而在 Embedding 与 Reranker 等检索相关场景下，mis-tei 作为专用推理组件，同样提供了高效且更贴合场景的能力。 mis-tei 专注于文本向量生成与重排序能力，广泛应用于检索增强（RAG）阅读全文

posted @ 2026-04-01 09:58 GPUStack 阅读(198) 评论(0) 推荐(0)

2026年3月27日

倒计时 1 天！北京 SGLang Meetup，一场关于 AI Infra 的深度对话

摘要：会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服务平台。同时，本次 Meetup 还将带来多项前沿实践与进阅读全文

posted @ 2026-03-27 11:18 GPUStack 阅读(27) 评论(0) 推荐(0)

2026年3月25日

邀你赴约｜本周六北京 SGLang Meetup，一场关于 AI Infra 的深度对话

摘要：会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服务平台。同时，本次 Meetup 还将带来多项前沿实践与进阅读全文

posted @ 2026-03-25 10:41 GPUStack 阅读(19) 评论(0) 推荐(0)

2026年3月20日

3.28 北京 Meetup，与 GPUStack、SGLang、MiniCPM 核心成员一起深度对话 AI Infra

摘要：会议主题本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup，我们将围绕大模型部署中的关键挑战展开分享，重点探讨异构 GPU 管理与推理效率优化等核心痛点，深入解析如何构建面向企业生产环境的统一模型服务平台。同时，本次 Meetup 还将带来多项前沿实践与进阅读全文

posted @ 2026-03-20 15:09 GPUStack 阅读(20) 评论(0) 推荐(0)

2026年3月17日

阿里 PPU 加入 GPUStack 国产算力版图：异构算力统一调度的重磅里程碑

摘要： GPUStack 2.1.0 正式新增对阿里 PPU（平头哥）的支持，在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。在 NVIDIA、AMD、华为昇腾、海光、摩尔线程、天数智芯、寒武纪、沐曦等多种算力平台的阅读全文

posted @ 2026-03-17 14:13 GPUStack 阅读(243) 评论(0) 推荐(0)

2026年3月13日

GPUStack 离线部署镜像准备与国内加速源

摘要：通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件，动态生成对应的 GPUStack 容器镜像列表，并提供镜像准备与离线部署参考命令。阅读全文

posted @ 2026-03-13 17:42 GPUStack 阅读(839) 评论(0) 推荐(0)

2026年3月10日

GPUStack × MaxKB：打造强大易用的开源企业级智能体平台

摘要：通过 GPUStack 提供高效的模型部署与管理能力，并将模型接入 MaxKB，即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。阅读全文

posted @ 2026-03-10 09:49 GPUStack 阅读(119) 评论(0) 推荐(0)

2026年3月9日

从模型推理到开源 AI 基础设施平台：GPUStack v2.1 的关键演进

摘要：随着大模型进入生产环境，AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力，为企业构建统一、高性能的AI模型服务平台阅读全文

posted @ 2026-03-09 14:49 GPUStack 阅读(379) 评论(0) 推荐(0)

公告