LLM基础--正则化，激活函数、位置编码、tokenizer

介绍在LLM中使用的正则化等操作以及基本原理。
同步更新：https://www.mubu.com/doc/l5NKGsTB1C

一、正则化

有助于减少模型的过拟合，提高模型的泛化能力，并加速训练过程
1、Layer Norm

2、Batch Norm

3、RMS Norm

二、激活函数

1、ReLU

2、Leaky RELU

3、Tanh

4、ELU

5、SwiGLU

三、位置编码

用于在输入序列中标记每个单词或标记的位置，这有助于模型理解输入序列中各个部分的位置关系，从而更好地捕捉序列中的长距离依赖关系。一般而言就是计算得到位置编码之后将其与input embedding进行相加得到结果。
1、Absolute Positon Embedding

2、Relative Position Embedding

3、RoPE
旋转编码RoPE可以有效地保持位置信息的相对关系，即相邻位置的编码之间有一定的相似性，而远离位置的编码之间有一定的差异性。这样可以增强模型对位置信息的感知和利用。这一点是其他绝对位置编码方式（如正弦位置编码、学习的位置编码等）所不具备的，因为它们只能表示绝对位置，而不能表示相对位置。
旋转编码RoPE可以通过旋转矩阵来实现位置编码的外推，即可以通过旋转矩阵来生成超过预训练长度的位置编码。这样可以提高模型的泛化能力和鲁棒性。这一点是其他固定位置编码方式（如正弦位置编码、固定相对位置编码等）所不具备的，因为它们只能表示预训练长度内的位置，而不能表示超过预训练长度的位置。
旋转编码RoPE可以与线性注意力机制兼容，即不需要额外的计算或参数来实现相对位置编码。这样可以降低模型的计算复杂度和内存消耗。这一点是其他混合位置编码方式（如Transformer-XL、XLNet等）所不具备的，因为它们需要额外的计算或参数来实现相对位置编码

通过计算内积来对位置信息进行表示：\(<f_q(x_m,m), f_k(x_n, n)>=g(x_m, x_n, m-n)\) 以二维例子为例，如在计算query时：\(f_q(x_m,n)=(W_qx_m)e^{im \theta}\) 那么对于\(f_q\)可以表示为：\(\left(\begin{array}{cc}{\cos m\theta}&{-\sin m\theta)}\\{\sin m\theta}&{\cos m\theta}\\\end{array}\right)\left(\begin{array}{cc}{W_{q}^{(1,1)}}&{W_{q}^{(1,2)}}\\{W_{q}^{(2,1)}}&{W_{q}^{(2,2)}}\\\end{array}\right)\left(\begin{array}{c}{x_{m}^{(1)}}\\{x_{m}^{(2)}}\\\end{array}\right) =\left(\begin{array}{cc}{\cos m\theta}&{-\sin m\theta}\\{\sin m\theta}&{\cos m\theta}\\\end{array}\right)\left(\begin{array}{c}{q_{m}^{(1)}}\\{q_{m}^{(2)}}\\\end{array}\right)\)这样一来也就是说对于最初的query乘一个旋转矩阵。

\[\boldsymbol R_{\Theta,m}^d\boldsymbol x=\begin{pmatrix}x_1\\x_2\\x_3\\x_4\\\vdots\\x_{d-1}\\x_d\end{pmatrix}\otimes\begin{pmatrix}\cos m\theta_1\\\cos m\theta_1\\\cos m\theta_2\\\cos m\theta_2\\\vdots\\\cos m\theta_{d/2}\\\cos m\theta_{d/2}\end{pmatrix}+\begin{pmatrix}-x_2\\x_1\\-x_4\\x_3\\\vdots\\-x_d\\x_{d-1}\end{pmatrix}\otimes\begin{pmatrix}\sin m\theta_1\\\sin m\theta_1\\\sin m\theta_2\\\sin m\theta_2\\\vdots\\\sin m\theta_{d/2}\\\sin m\theta_{d/2}\end{pmatrix} \]

四、tokenizer

https://huggingface.co/learn/nlp-course/zh-CN/chapter2/4

posted @ 2024-04-19 15:26 Big-Yellow-J 阅读(23) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Big-Yellow

LLM基础--正则化，激活函数、位置编码、tokenizer

LLM基础--正则化，激活函数、位置编码、tokenizer

一、正则化

二、激活函数

三、位置编码

四、tokenizer

公告