这是关于BERT（Bidirectional Encoder Representations from Transformers）模型中 Encoder（编码器）结构的讲解内容，属于自然语言处理（NLP）领域的深度学习知识。

BERT 是基于 Transformer 架构的预训练模型，Encoder 部分核心流程：

输入处理：词嵌入（X）结合位置编码（Positional Encoding），得到初始输入表征。
Self - Attention（自注意力）：通过计算 Q（查询）、K（键）、V（值），捕捉序列中词与词的关联，输出经线性变换（Liner）的结果，即 output = Liner(Attention(Q,K,V)) 。
Add & Normalize（残差连接 + 层归一化）：将自注意力输出与原始输入（Xembedding）做残差连接后，用 LayerNorm 归一化，即 LayerNorm(Xembedding + Xattention) ，稳定训练、加速收敛。
Feed Forward（前馈网络）：对归一化后结果，经两层线性变换（Liner）和 GELU 激活函数，即 output = Liner(gelu(Liner(x))) ，再一次 Add & Normalize（LayerNorm(X forward + Xattention) ），完成一层 Encoder 计算，多层堆叠构建完整 BERT 编码器。

简单说，就是用 Transformer 的 Encoder 层，通过自注意力、残差连接、层归一化、前馈网络等操作，提取文本深度语义特征，是 BERT 实现双向语境表征学习的关键。

posted @ 2025-06-22 16:00 m516606428 阅读(26) 评论(0) 收藏举报

刷新页面返回顶部

m516606428