摘要:
目录Triton kernel — 存 KV cachePython 封装 — store_kvcacheattention Qwen3(或相似架构)中的 Attention 层实现,它结合了 Triton 自定义 kernel(KV cache 存储) 和 FlashAttention 库 来实现 阅读全文
posted @ 2025-09-04 09:58
jack-chen666
阅读(79)
评论(0)
推荐(0)
摘要:
目录激活函数Qwen3MLP 激活函数 import torch from torch import nn import torch.nn.functional as F class SiluAndMul(nn.Module): def __init__(self): super().__init_ 阅读全文
posted @ 2025-09-04 09:43
jack-chen666
阅读(163)
评论(0)
推荐(0)

浙公网安备 33010602011771号