摘要:
多层感知机中的偏置(bias)项可以看作是每个神经元的一个可训练的常数项,主要区别在于: 不使用偏置时,每个神经元的输出仅由输入和权重的线性组合决定,输出形式为 y = Wx。当激活函数为线性函数(或无激活函数)时,这相当于所有决策边界必须过原点,限制了网络的表达能力。 使用偏置后,输出形式为 y 阅读全文
posted @ 2025-03-06 22:24
HaibaraYuki
阅读(77)
评论(0)
推荐(0)
摘要:
单头与多头注意力结构如下: Q,K,V是输入的三个句子词向量 \(d_{model}=768\) h=12,12个头 由下图知\(d_{k}=d_{v}=d_{model}/h64\) 最后把12个头concat后又进行线性变换,用到参数\(W_{o}(768*768)\) Self Attenti 阅读全文
posted @ 2025-03-06 22:11
HaibaraYuki
阅读(317)
评论(0)
推荐(0)
摘要:
有\(\gemma\)和\(\beta\)等两个参数 三个地方用到了LayerNorm层 Embedding层后 \(768*2\) Multi-Head Attention后 \((768*2)*12\) Feed-Forward后 \((768*2)*12\) 故,12层LayerNorm层参数 阅读全文
posted @ 2025-03-06 21:57
HaibaraYuki
阅读(54)
评论(0)
推荐(0)
摘要:
Feed Forward(前馈网络)参数量计算 主要由2个全连接层组成,论文中全连接层的公式如下: \[FFN(X) = max(0,xW1+b1)W2+b2 \] 其中用到的两个参数W1和W2,已知\(BERT_{BASE}的设置为d_{model}=768\),BERT沿用了惯用的全连接层大小设 阅读全文
posted @ 2025-03-06 21:24
HaibaraYuki
阅读(49)
评论(0)
推荐(0)
摘要:
在原始的 Transformer 模型中,位置嵌入是由正弦和余弦函数组成的,这样设计的原因在于它具有周期性,可以帮助模型处理比训练时更长的序列,同时保持一定的泛化能力。 阅读全文
posted @ 2025-03-06 20:34
HaibaraYuki
阅读(23)
评论(0)
推荐(0)
摘要:
Embedding(词向量参数)计算: 前置条件 词汇量大小 vocab_size=30522 文本输入最长大小 max_position_embeddings=512 句子类型(标记上下文) BERT用了2个句子,为0和1 token_type_embeddings=2 隐藏层 hidden_si 阅读全文
posted @ 2025-03-06 19:46
HaibaraYuki
阅读(53)
评论(0)
推荐(0)
摘要:
13.1.BERT公认的里程碑 BERT 的意义在于:从大量无标记数据集中训练得到的深度模型,可以显著提高各项自然语言处理任务的准确率。 近年来优秀预训练语言模型的集大成者: 参考了 ELMO 模型的双向编码思想、 借鉴了 GPT 用 Transformer 作为特征提取器的思路、 采用了 word 阅读全文
posted @ 2025-03-06 11:10
HaibaraYuki
阅读(155)
评论(0)
推荐(0)

浙公网安备 33010602011771号