随笔档案「2025年5月27日」：解密prompt系列54.Context Cache代码示例和原理分析 ... - 风雨中的小七

2025年5月27日

摘要：

Context Cache的使用几乎已经是行业共识，目标是优化大模型首Token的推理延时，在多轮对话，超长System Prompt，超长结构化JSON和Few-shot等应用场景，是不可或缺的。这一章我们主要从原理、一些论文提出的优化项和VLLM开源项目入手，分析下context Cache的实现和适合场景。阅读全文

posted @ 2025-05-27 07:40 风雨中的小七阅读(947) 评论(0) 推荐(0)