摘要: 1. 介绍: 基于最近对大模型 KV_cache,及 Attention 变种学习中遇到的问题和理解记录下来,帮助大家解决一点疑惑。 2. kv_cache 显存对比: 参数说明 batch_size:B seq_len:L head_num:H head_dim:D layer_num:N gro 阅读全文
posted @ 2025-07-11 16:33 安洛8 阅读(35) 评论(0) 推荐(0)