这是关于BERT(Bidirectional Encoder Representations from Transformers)模型中 Encoder(编码器)结构的讲解内容,属于自然语言处理(NLP)领域的深度学习知识。
BERT 是基于 Transformer 架构的预训练模型,Encoder 部分核心流程:
- 输入处理:词嵌入(X)结合位置编码(Positional Encoding),得到初始输入表征。
- Self - Attention(自注意力):通过计算 Q(查询)、K(键)、V(值),捕捉序列中词与词的关联,输出经线性变换(Liner)的结果 ,即
output = Liner(Attention(Q,K,V)) 。
- Add & Normalize(残差连接 + 层归一化):将自注意力输出与原始输入(Xembedding)做残差连接后,用
LayerNorm 归一化,即 LayerNorm(Xembedding + Xattention) ,稳定训练、加速收敛。
- Feed Forward(前馈网络):对归一化后结果,经两层线性变换(Liner)和 GELU 激活函数,即
output = Liner(gelu(Liner(x))) ,再一次 Add & Normalize(LayerNorm(X forward + Xattention) ),完成一层 Encoder 计算,多层堆叠构建完整 BERT 编码器。
简单说,就是用 Transformer 的 Encoder 层,通过自注意力、残差连接、层归一化、前馈网络等操作,提取文本深度语义特征,是 BERT 实现双向语境表征学习的关键。