摘要:
MHA:多头注意力机制 在MHA中,我们假设最初输入X乘上QKV的权重矩阵之后,得到了尺寸为[s, d]的QKV矩阵(seq_len, dimension) 假设多头的数目为head,则QKV都被切片为head个[s, d/head]子矩阵 这里,如果每一轮都全部计算的话,QKV内存占用非常大 KV 阅读全文
posted @ 2025-05-18 19:35
Phile-matology
阅读(81)
评论(0)
推荐(0)
摘要:
背景:反向传播与链式求导 神经网络参数的更新依赖于链式求导法则:求损失函数关于待更新参数的偏导 该偏导来源于该层及更深层逐层偏导数的累乘 理想来说,我们希望每层偏导数都在1附近,或者至少大部分在1附近 否则,过多小于1或者过度接近于0的偏导,会导致传递到上层的梯度非常接近0,参数更新幅度微小,这就是 阅读全文
posted @ 2025-05-18 16:38
Phile-matology
阅读(90)
评论(0)
推荐(0)
摘要:
初始化的出发点:希望初始化的参数在一个性能比较好的区间上 如果参数较为极端,例如出现了输入与输出的分布相差很远,那么在深层的神经网络中,就可能带来梯度爆炸(分布在目标函数陡峭的区间)/梯度消失(例如数值过大进入了softmax的平缓区间) 理想状态是,Normalization方法将输入控制在一个N 阅读全文
posted @ 2025-05-18 15:31
Phile-matology
阅读(24)
评论(0)
推荐(0)
摘要:
Batch Normalization 在batch size维度上归一化 抹除了特征之间的大小关系、保留了样本之间的大小关系 Layer Normalization 在hidden size维度上归一化 抹除了样本之间的大小关系,保留了样本之间的大小关系 RMSNorm:(llama2) 就是不进 阅读全文
posted @ 2025-05-18 00:51
Phile-matology
阅读(12)
评论(0)
推荐(0)

浙公网安备 33010602011771号