2024 年 3月 20 日随笔档案 - muzinan110

2024年3月20日

摘要： vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量，就像在操作系统中管理CPU虚拟内存一样 NVIDIA FasterTransformer (FT) 是一个阅读全文

posted @ 2024-03-20 11:20 muzinan110 阅读(1380) 评论(0) 推荐(0)

muzinan110

公告