摘要:
个人学习使用,内容来源于网络,侵权删 参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎
阅读全文
posted @ 2024-02-29 12:27
zhou-snaker
阅读(2)
推荐(0)
编辑
摘要:
个人学习使用,内容来源于网络,侵权删 手推softmax的求导
阅读全文
posted @ 2024-02-29 12:23
zhou-snaker
阅读(2)
推荐(0)
编辑
摘要:
个人学习所使用,内容来源于网络,侵权删 为什么Pre Norm的效果不如Post Norm? Post-Norm VS Pre-Norm
阅读全文
posted @ 2024-02-29 10:55
zhou-snaker
阅读(30)
推荐(0)
编辑
摘要:
个人学习使用,内容来源于网络,侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len
阅读全文
posted @ 2024-02-29 10:18
zhou-snaker
阅读(32)
推荐(0)
编辑