摘要: GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场 在大模型推理的下半场,GPUStack v2 不再是简单的模型服务平台,而是高性能推理生态的协调者与赋能者。 阅读全文
posted @ 2025-11-25 17:35 GPUStack 阅读(1378) 评论(0) 推荐(0)
摘要: 昇腾多机推理极速上手:10倍简化的 DeepSeek R1 超大规模模型部署 昇腾多机推理太复杂?易出错?试试 GPUStack 阅读全文
posted @ 2025-09-27 10:55 GPUStack 阅读(712) 评论(1) 推荐(0)
摘要: 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务 在 45 分钟内搭建 GPUStack 模型服务平台并运行生产级的 Qwen3 模型服务。 阅读全文
posted @ 2025-04-29 17:07 GPUStack 阅读(1557) 评论(0) 推荐(0)
摘要: GPUStack正式发布: 为大模型而生的开源GPU集群管理器 GPUStack 正式发布并开源,一个用于运行 LLM(大型语言模型)的开源 GPU 集群管理器。 阅读全文
posted @ 2024-07-26 16:15 GPUStack 阅读(7953) 评论(0) 推荐(0)
摘要: 会议主题 本次 GPUStack、OpenBMB 和 SGLang 社区联合举办的线下 Meetup,我们将围绕大模型部署中的关键挑战展开分享,重点探讨异构 GPU 管理与推理效率优化等核心痛点,深入解析如何构建面向企业生产环境的统一模型服务平台。 同时,本次 Meetup 还将带来多项前沿实践与进 阅读全文
posted @ 2026-03-20 15:09 GPUStack 阅读(5) 评论(0) 推荐(0)
摘要: GPUStack 2.1.0 正式新增对阿里 PPU(平头哥)的支持,在 PPU 平台上实现 vLLM / SGLang 多版本切换、高性能模型推理、AI 网关访问控制、监控运营等企业级 MaaS 平台能力。 在 NVIDIA、AMD、华为昇腾、海光、摩尔线程、天数智芯、寒武纪、沐曦等多种算力平台的 阅读全文
posted @ 2026-03-17 14:13 GPUStack 阅读(34) 评论(0) 推荐(0)
摘要: 通过选择 GPU 类型、计算框架版本、推理后端、服务器架构等条件,动态生成对应的 GPUStack 容器镜像列表,并提供镜像准备与离线部署参考命令。 阅读全文
posted @ 2026-03-13 17:42 GPUStack 阅读(66) 评论(0) 推荐(0)
摘要: 通过 GPUStack 提供高效的模型部署与管理能力,并将模型接入 MaxKB,即可轻松构建具备知识库检索 + 智能问答能力的 AI 助手。 阅读全文
posted @ 2026-03-10 09:49 GPUStack 阅读(36) 评论(0) 推荐(0)
摘要: 随着大模型进入生产环境,AI推理基础设施的复杂度快速上升。GPUStack v2.1 重点增强六大核心能力,为企业构建统一、高性能的AI模型服务平台 阅读全文
posted @ 2026-03-09 14:49 GPUStack 阅读(97) 评论(0) 推荐(0)
摘要: 随着大模型应用规模持续扩张,如何在有限算力条件下提升推理效率,已成为 AI 基础设施建设的核心课题。 GPUStack 致力于统一管理异构 GPU 资源,实现高性能、稳定且可扩展的 AI 模型服务。在这一背景下,GPUStack 与 SOAR 2026 合作,为开发者提供了一个探索硬件潜能、突破架构 阅读全文
posted @ 2026-03-06 14:51 GPUStack 阅读(9) 评论(0) 推荐(0)
摘要: 本文基于 AI Max 395(搭载 AMD Ryzen AI Max+ 395 处理器)硬件平台,完整记录了通过 GPUStack 开源集群管理平台,本地部署 AgentCPM 系列模型并接入 DeepResearch 能力的全流程实践。 阅读全文
posted @ 2026-03-04 10:53 GPUStack 阅读(452) 评论(0) 推荐(0)
摘要: Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手 关注🌟⌈GPUStack⌋ 💻一起学习 AI、GPU 管理与大模型相关技术实践。 这两年,越来越多团队把 AI 接入了日常工作流。 但很快,一个现实问题摆在了面前: 模型用得越多,Token 花得越快,成本和心理压力也随之上涨。 很多人一边依赖 AI 提效,一边又不得不「省着用」「少让它多想」。 阅读全文
posted @ 2026-03-02 16:56 GPUStack 阅读(1030) 评论(2) 推荐(0)
摘要: 最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元: 图源:Inferact SGLang 团队也成立了 RadixArk,同样获得融资,估值达到 4 亿美元: 图源:Ra 阅读全文
posted @ 2026-02-03 11:25 GPUStack 阅读(125) 评论(0) 推荐(0)
摘要: GPUStack 实战:n8n 接入本地模型,零成本打造 AI 资讯助手 通过 n8n 接入 GPUStack 本地模型,构建一个自动抓取 RSS、生成摘要并邮件推送的 AI 资讯助手。全流程本地运行,零 API 成本,数据不出域,快速体验私有化 AI 自动化。 阅读全文
posted @ 2026-01-23 12:28 GPUStack 阅读(84) 评论(0) 推荐(0)