当前标签：vLLM

在沐曦 C500 上使用 GPUStack 高效管理 vLLM 和 SGLang 推理服务与生产化运维

GPUStack 2026-04-15 09:45 阅读:23 评论:0 推荐:0

vLLM 新参数 performance-mode 能带来多大提升？Qwen3.5 实测告诉你答案

GPUStack 2026-04-08 14:15 阅读:77 评论:0 推荐:0

挑战 Qwen 3.5：Gemma 4 私有部署与文本、图像、视频、音频处理及思考模式、工具调用全教程

GPUStack 2026-04-07 10:24 阅读:825 评论:0 推荐:0

vLLM Ascend 是最优解吗？基于 mis-tei 实现昇腾上的高性能 Embedding/Reranker 模型推理

GPUStack 2026-04-01 09:58 阅读:60 评论:0 推荐:0

倒计时 1 天！北京 SGLang Meetup，一场关于 AI Infra 的深度对话

GPUStack 2026-03-27 11:18 阅读:14 评论:0 推荐:0

阿里 PPU 加入 GPUStack 国产算力版图：异构算力统一调度的重磅里程碑

GPUStack 2026-03-17 14:13 阅读:95 评论:0 推荐:0

vLLM、SGLang 融资背后，AI 推理正在走向系统化与治理

GPUStack 2026-02-03 11:25 阅读:142 评论:0 推荐:0

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

GPUStack 2025-11-25 17:35 阅读:1475 评论:0 推荐:0

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

GPUStack 2025-08-08 17:48 阅读:1938 评论:0 推荐:0