摘要:        
注意力机制中MHA,MQA和GQA是三种经典的结构: MHA:每个头有独立的Q、K、V,参数多,模型表现力强,计算成本高。 MQA:所有头共享K和V,每个头有独立的Q,参数少,计算快,但可能牺牲一定的表达能力。 GQA:折中方案,将头分成g组,每组共享K和V,平衡参数和性能。 下图比较好的展示了三种    阅读全文
posted @ 2025-05-02 21:02
Dsp Tian
阅读(203)
评论(0)
推荐(0)
        
            
        
        
摘要:        
这里存四种格式: 1. 只保存模型参数的pth文件。 2. 能在python环境下读取的的模型结构和参数pt文件。 3. 能在c++环境下读取的模型结构和参数pt文件。 4. 能在pytorch环境外被其他框架读取的模型结构和参数onnx文件。 import torch import torch.n    阅读全文
posted @ 2025-05-02 20:02
Dsp Tian
阅读(85)
评论(0)
推荐(0)
        
 
                    
                
 浙公网安备 33010602011771号
浙公网安备 33010602011771号