高级推理优化设计 - 随笔分类 - 向着朝阳

高级推理优化技术-SGLang

摘要：目录一、vLLM + Ray 的能力二、vLLM + Ray 的局限性三、SGLang 提供的额外价值四、总结你的问题很实际，我来系统说明一下：为什么 vLLM + Ray 对大部分场景已经够用，但有些场景仍然会考虑 SGLang。一、vLLM + Ray 的能力 vLLM 高效单机 / 多 G 阅读全文

posted @ 2026-01-20 18:55 向着朝阳阅读(92) 评论(0) 推荐(0)

高级推理优化技术-MLA

摘要：目录一、核心关系二、MLA 在 vLLM 中的应用点三、使用方式四、总结 MLA（Memory & Latency Aware / Memory Layout Aware）是大模型推理的高级优化策略，主要针对高 QPS 或长上下文、超大模型部署的场景。它不是入门级开发必须掌握的内容。明白，你想知阅读全文

posted @ 2026-01-20 18:46 向着朝阳阅读(154) 评论(0) 推荐(0)

推理加速-高阶- Speculative Decoding

摘要：目录一、vLLM 的本职功能二、如何在 vLLM 上实现 Speculative Decoding三、工程可行性四、总结答案是支持扩展，但不是开箱就有，需要自己做一些集成和改造。详细分析如下：一、vLLM 的本职功能 vLLM 主要提供：高效推理： KV Cache 管理 FlashAtte 阅读全文

posted @ 2026-01-20 18:40 向着朝阳阅读(24) 评论(0) 推荐(0)

aibi1

随笔分类 - 大模型调优 / 高级推理优化设计

公告