摘要:
计算自注意力时,Q(查询)向量在每次解码步骤中都是全新的,而 K(键)和 V(值)向量大部分是重复的,缓存 K 和 V 可以避免大量的重复计算。 下面通过一个具体的例子来详细解释为什么。 自注意力机制 在解码(生成)过程中,对于每一个新生成的 token,都有: Q (Query):来自当前新生成的 阅读全文
posted @ 2025-10-15 13:36
wangssd
阅读(9)
评论(0)
推荐(0)
摘要:
vLLM 通过命令行工具 python -m vllm.entrypoints.api_server 启动 OpenAI 兼容的 API 服务器,其参数涵盖了模型加载、推理、调度和服务的各个方面。 启动命令基本结构 bash python -m vllm.entrypoints.api_server 阅读全文
posted @ 2025-10-15 11:28
wangssd
阅读(54)
评论(0)
推荐(0)