随笔档案「2024年2月29日」：transformer中的attention为什么scaled? ... - zhou-snaker

2024年2月29日

transformer中的attention为什么scaled?

摘要：个人学习使用，内容来源于网络，侵权删参考链接：transformer中的attention为什么scaled? - 小莲子的回答 - 知乎阅读全文

posted @ 2024-02-29 12:27 zhou-snaker 阅读(16) 评论(0) 推荐(0)

手推softmax的求导

摘要：个人学习使用，内容来源于网络，侵权删手推softmax的求导阅读全文

posted @ 2024-02-29 12:23 zhou-snaker 阅读(17) 评论(0) 推荐(0)

Post-Norm VS Pre-Norm

摘要：个人学习所使用，内容来源于网络，侵权删为什么Pre Norm的效果不如Post Norm？ Post-Norm VS Pre-Norm 阅读全文

posted @ 2024-02-29 10:55 zhou-snaker 阅读(116) 评论(0) 推荐(0)

transformer 位置编码

摘要：个人学习使用，内容来源于网络，侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len 阅读全文

posted @ 2024-02-29 10:18 zhou-snaker 阅读(265) 评论(0) 推荐(0)