合集-LLM八股文系列

摘要:1. SGD 随机梯度下降(stochastic gradient descent,SGD) 输入数据为(x, y)组成的pair,模型参数是\(W\),随机选择一批样本组成一个batch,输入模型计算loss:\(L=f(X, Y;W)\),并求出梯度,更新参数时: \(W=W-lr*\frac{ 阅读全文
posted @ 2024-09-29 15:31 王冰冰 阅读(2205) 评论(2) 推荐(0)
摘要:当前版本为本文的尝鲜版,稳定版尚未发布: 稳定版已发布 位置编码: https://zhuanlan.zhihu.com/p/454482273 transformer的sin位置编码本身已经包含了相对位置信息,本身就是一种包含相对信息的绝对位置编码。因为它符合一种形式: \[PE_{t+k}=f( 阅读全文
posted @ 2024-03-25 21:06 王冰冰 阅读(1575) 评论(7) 推荐(1)
摘要:LLaMA系列用的FFN层现在是SwishGLU,这里Swish是个激活函数,GLU是个线性单元,二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样: \[FFN(x) = ReLU(xW_1+b_1)W_2+b_2 \]两个线性层中间夹了个relu激活函数 写成模型 阅读全文
posted @ 2024-10-29 15:51 王冰冰 阅读(676) 评论(0) 推荐(0)