LLM八股文系列- - 王冰冰

优化器：从SGD到Adam到AdamW

摘要：1. SGD 随机梯度下降（stochastic gradient descent，SGD）输入数据为(x, y)组成的pair，模型参数是\(W\)，随机选择一批样本组成一个batch，输入模型计算loss：\(L=f(X, Y;W)\)，并求出梯度，更新参数时： \(W=W-lr*\frac{ 阅读全文

posted @ 2024-09-29 15:31 王冰冰阅读(2205) 评论(2) 推荐(0)

浅谈位置编码（RoPE）

摘要：当前版本为本文的尝鲜版，稳定版尚未发布：稳定版已发布位置编码： https://zhuanlan.zhihu.com/p/454482273 transformer的sin位置编码本身已经包含了相对位置信息，本身就是一种包含相对信息的绝对位置编码。因为它符合一种形式： \[PE_{t+k}=f( 阅读全文

posted @ 2024-03-25 21:06 王冰冰阅读(1575) 评论(7) 推荐(1)

激活函数和GLU

摘要：LLaMA系列用的FFN层现在是SwishGLU，这里Swish是个激活函数，GLU是个线性单元，二者合起来是SwishGLU。 FFN Transformer中原始的FFN长这样： \[FFN(x) = ReLU(xW_1+b_1)W_2+b_2 \]两个线性层中间夹了个relu激活函数写成模型阅读全文

posted @ 2024-10-29 15:51 王冰冰阅读(676) 评论(0) 推荐(0)

王冰冰

合集-LLM八股文系列

公告