2025 年 10月 15 日随笔档案 - wangssd

2025年10月15日

摘要：计算自注意力时，Q（查询）向量在每次解码步骤中都是全新的，而 K（键）和 V（值）向量大部分是重复的，缓存 K 和 V 可以避免大量的重复计算。下面通过一个具体的例子来详细解释为什么。自注意力机制在解码（生成）过程中，对于每一个新生成的 token，都有： Q (Query)：来自当前新生成的阅读全文

posted @ 2025-10-15 13:36 wangssd 阅读(9) 评论(0) 推荐(0)

vllm 大模型推理框架

摘要： vLLM 通过命令行工具 python -m vllm.entrypoints.api_server 启动 OpenAI 兼容的 API 服务器，其参数涵盖了模型加载、推理、调度和服务的各个方面。启动命令基本结构 bash python -m vllm.entrypoints.api_server 阅读全文

posted @ 2025-10-15 11:28 wangssd 阅读(54) 评论(0) 推荐(0)

wangssd

公告