摘要:
2024.3.19 Transformer (为什么用掩码,为什么用编码器) 1.为什么Decoder需要Mask 机器翻译:源语句(我爱中国),目标语句(I Love China) 为了解决训练阶段和测试阶段的gap(不匹配) 训练阶段:解码器会有输入,这个输入是目标语句,就是I Love Chi 阅读全文
posted @ 2024-03-19 16:34
adam12138
阅读(310)
评论(0)
推荐(0)
摘要:
2024.3.13 Multi-Head Self-Attention Self-Attention Self-Attention 其实是 Attention 的一个具体做法 给定一个 X,通过自注意力模型,得到一个 Z,这个 Z 就是对 X 的新的表征(词向量),Z 这个词向量相比较 X 拥有了句 阅读全文
posted @ 2024-03-19 16:33
adam12138
阅读(144)
评论(0)
推荐(0)
浙公网安备 33010602011771号