摘要: 解密prompt系列54.Context Cache代码示例和原理分析 Context Cache的使用几乎已经是行业共识,目标是优化大模型首Token的推理延时,在多轮对话,超长System Prompt,超长结构化JSON和Few-shot等应用场景,是不可或缺的。这一章我们主要从原理、一些论文提出的优化项和VLLM开源项目入手,分析下context Cache的实现和适合场景。 阅读全文
posted @ 2025-05-27 07:40 风雨中的小七 阅读(842) 评论(0) 推荐(0)