摘要: 注意力机制中MHA,MQA和GQA是三种经典的结构: MHA:每个头有独立的Q、K、V,参数多,模型表现力强,计算成本高。 MQA:所有头共享K和V,每个头有独立的Q,参数少,计算快,但可能牺牲一定的表达能力。 GQA:折中方案,将头分成g组,每组共享K和V,平衡参数和性能。 下图比较好的展示了三种 阅读全文
posted @ 2025-05-02 21:02 Dsp Tian 阅读(203) 评论(0) 推荐(0)
摘要: 这里存四种格式: 1. 只保存模型参数的pth文件。 2. 能在python环境下读取的的模型结构和参数pt文件。 3. 能在c++环境下读取的模型结构和参数pt文件。 4. 能在pytorch环境外被其他框架读取的模型结构和参数onnx文件。 import torch import torch.n 阅读全文
posted @ 2025-05-02 20:02 Dsp Tian 阅读(85) 评论(0) 推荐(0)