摘要:
模型量化 将精度高的模型参数舍入精度较低的参数 按照映射方式,有线性量化和非线性量化 按照过程是否沿零点对称,分为对称量化和非对称量化 反量化:在记录了映射关系时,可以一定程度上还原量化之前的权重值 分位数量化 信息论认为,最高效的编码形式是,每一个编码被使用的概率相等 单纯的使用round进行量化 阅读全文
posted @ 2025-05-20 21:23
Phile-matology
阅读(70)
评论(0)
推荐(0)
摘要:
微调(Finetuning) 用比训练时小得多的数据量,试图通过较短的训练,提高模型在某个特定场景或者任务上的能力。 最基础的思路是全参数微调,空间开销和预训练完全相同,只是由于数据量等原因,耗时更短 为了降低要求,扩大使用范围(消费级硬件),省空间的微调方法不断被提出 PEFT:Parameter 阅读全文
posted @ 2025-05-20 18:41
Phile-matology
阅读(44)
评论(0)
推荐(0)
摘要:
LoRA:low rank adaptation低秩分解 启发点:越大的模型参数矩阵,越可能具有很小的Intrinsic dimension,即只需要调整其一部分参数就能有效影响其在特定输入上的输出 \(W_0 = W + AB\),假设W的维度是d * k,则A是dr,B是rk,r可以远小于d和k 阅读全文
posted @ 2025-05-20 01:18
Phile-matology
阅读(24)
评论(0)
推荐(0)
摘要:
MoE:专门的人做专门的事 MoE总体来说是一种设计理念,即用一组“小而准确的模块”+“可训练的专家路由”来替代“大而全的模块” 在Transformer中,往往替代的是多个全连接层FFN 门控网络 最简单的门控网络是一个FFN,输出维度等于专家数目,接一个softmax来输出“选择某个专家的概率” 阅读全文
posted @ 2025-05-20 00:51
Phile-matology
阅读(24)
评论(0)
推荐(0)

浙公网安备 33010602011771号