摘要: vLLM 入口(Entrypoints) vLLM 主要提供两种推理模式,分别针对高吞吐量的离线批处理和高并发的在线服务: 离线推理模式 (Offline Inference): 核心接口:直接使用 vllm.LLM 类。 工作方式:用户在 Python 脚本中实例化 LLM 类,通过 llm.ge 阅读全文
posted @ 2026-02-05 17:08 Groot_Liu 阅读(78) 评论(0) 推荐(0)