摘要: vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量,就像在操作系统中管理CPU虚拟内存一样 NVIDIA FasterTransformer (FT) 是一个 阅读全文
posted @ 2024-03-20 11:20 muzinan110 阅读(1380) 评论(0) 推荐(0)