Bert基础教程-第一章节
章节知识
-
自注意力机制包含哪些步骤?
答: 自注意力机制包含:查询矩阵、键矩阵以及值矩阵;相似度矩阵(通过查询矩阵和键矩阵的点积运算得到);缩放矩阵(将相似度矩阵进行缩放);得分矩阵(将缩放后的相似度矩阵进行softmax归一化处理);注意力矩阵(利用得分矩阵对值向量进行加权求和后的到的,每个向量对应一个数值)
-
什么是缩放点积注意力?
答:将相似度矩阵进行缩放处理(即将相似度矩阵除以键矩阵向量的开平方),从而获得更加稳定的梯度。
-
如何创建查询矩阵、键矩阵和值矩阵?
答:将嵌入矩阵分别乘以查询权重、键权重以及值权重所得到的,所谓的查询权重、键权重和值权重都是随机初始化的。
-
为什么需要位置编码?
答:因为在transformer网络中,模型是并行地接受句子中的所有词汇,但是并行地将词送入transformer,会导致transformer不理解词与词之间的语序关系。所以,为了让transformer更好的理解句子,就需要额外加入位置编码。
-
解码器有哪些子层?
答:解码器由下到上包含:带掩码的多头自注意力、残差连接层归一、多头自注意力、残差连接层归一、全连接层、残差连接层归一。
-
解码器的多头注意力层的输出是什么?
答:从目标句得到的查询矩阵与原句特征值得到的键矩阵进行点积运算,解码器的多头注意力层的输出是目标句和原句的相似度矩阵。

浙公网安备 33010602011771号