合集-LLM八股文系列
摘要:1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是\(W\),随机选择一批样本组成一个batch,输入模型计算loss:\(L=f(X, Y;W)\),并求出梯度,更新参数时: \(W=W-lr*\frac{
阅读全文
摘要:当前版本为本文的尝鲜版,稳定版尚未发布: 稳定版已发布 位置编码: https://zhuanlan.zhihu.com/p/454482273 transformer的sin位置编码本身已经包含了相对位置信息,本身就是一种包含相对信息的绝对位置编码。因为它符合一种形式: \[PE_{t+k}=f(
阅读全文
摘要:LLaMA系列用的FFN层现在是SwishGLU,这里Swish是个激活函数,GLU是个线性单元,二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样: \[FFN(x) = ReLU(xW_1+b_1)W_2+b_2 \]两个线性层中间夹了个relu激活函数 写成模型
阅读全文

浙公网安备 33010602011771号