摘要: !声明:本文部分框架及理论来自于 【大猿搬砖简记】 的公众号文章,但为了方便本人学习,进行了整理,同时在这个清晰的框架内添加了一些总结性质的内容,如需看原文请在其公众号中搜索:图解大模型计算加速系列。特此声明。 一、背景知识 LLM推理通常为两阶段: prefill 和 decode。 通常会使用K 阅读全文
posted @ 2024-12-14 14:24 AAA建材王师傅 阅读(351) 评论(0) 推荐(0)