摘要:
个人学习使用,内容来源于网络,侵权删 参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎 阅读全文
posted @ 2024-02-29 12:27
zhou-snaker
阅读(13)
评论(0)
推荐(0)
摘要:
个人学习使用,内容来源于网络,侵权删 手推softmax的求导 阅读全文
posted @ 2024-02-29 12:23
zhou-snaker
阅读(15)
评论(0)
推荐(0)
摘要:
个人学习所使用,内容来源于网络,侵权删 为什么Pre Norm的效果不如Post Norm? Post-Norm VS Pre-Norm 阅读全文
posted @ 2024-02-29 10:55
zhou-snaker
阅读(110)
评论(0)
推荐(0)
摘要:
个人学习使用,内容来源于网络,侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len 阅读全文
posted @ 2024-02-29 10:18
zhou-snaker
阅读(251)
评论(0)
推荐(0)
浙公网安备 33010602011771号