2025 年 5月 2 日随笔档案 - Dsp Tian

2025年5月2日

摘要：注意力机制中MHA，MQA和GQA是三种经典的结构： MHA：每个头有独立的Q、K、V，参数多，模型表现力强，计算成本高。 MQA：所有头共享K和V，每个头有独立的Q，参数少，计算快，但可能牺牲一定的表达能力。 GQA：折中方案，将头分成g组，每组共享K和V，平衡参数和性能。下图比较好的展示了三种阅读全文

posted @ 2025-05-02 21:02 Dsp Tian 阅读(203) 评论(0) 推荐(0)

深度学习（模型保存）

摘要：这里存四种格式： 1. 只保存模型参数的pth文件。 2. 能在python环境下读取的的模型结构和参数pt文件。 3. 能在c++环境下读取的模型结构和参数pt文件。 4. 能在pytorch环境外被其他框架读取的模型结构和参数onnx文件。 import torch import torch.n 阅读全文

posted @ 2025-05-02 20:02 Dsp Tian 阅读(85) 评论(0) 推荐(0)

Dsp Tian

公告