这是关于BERT(Bidirectional Encoder Representations from Transformers)模型中 Encoder(编码器)结构的讲解内容,属于自然语言处理(NLP)领域的深度学习知识。

这是关于BERT(Bidirectional Encoder Representations from Transformers)模型中 Encoder(编码器)结构的讲解内容,属于自然语言处理(NLP)领域的深度学习知识。

BERT 是基于 Transformer 架构的预训练模型,Encoder 部分核心流程:

  1. 输入处理:词嵌入(X)结合位置编码(Positional Encoding),得到初始输入表征。
  2. Self - Attention(自注意力):通过计算 Q(查询)、K(键)、V(值),捕捉序列中词与词的关联,输出经线性变换(Liner)的结果 ,即 output = Liner(Attention(Q,K,V)) 。
  3. Add & Normalize(残差连接 + 层归一化):将自注意力输出与原始输入(Xembedding)做残差连接后,用 LayerNorm 归一化,即 LayerNorm(Xembedding + Xattention) ,稳定训练、加速收敛。
  4. Feed Forward(前馈网络):对归一化后结果,经两层线性变换(Liner)和 GELU 激活函数,即 output = Liner(gelu(Liner(x))) ,再一次 Add & NormalizeLayerNorm(X forward + Xattention) ),完成一层 Encoder 计算,多层堆叠构建完整 BERT 编码器。

简单说,就是用 Transformer 的 Encoder 层,通过自注意力、残差连接、层归一化、前馈网络等操作,提取文本深度语义特征,是 BERT 实现双向语境表征学习的关键。
posted @ 2025-06-22 16:00  m516606428  阅读(26)  评论(0)    收藏  举报