2024年2月29日
摘要: 个人学习使用,内容来源于网络,侵权删 参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎 阅读全文
posted @ 2024-02-29 12:27 zhou-snaker 阅读(13) 评论(0) 推荐(0)
摘要: 个人学习使用,内容来源于网络,侵权删 手推softmax的求导 阅读全文
posted @ 2024-02-29 12:23 zhou-snaker 阅读(15) 评论(0) 推荐(0)
摘要: 个人学习所使用,内容来源于网络,侵权删 为什么Pre Norm的效果不如Post Norm? Post-Norm VS Pre-Norm 阅读全文
posted @ 2024-02-29 10:55 zhou-snaker 阅读(110) 评论(0) 推荐(0)
摘要: 个人学习使用,内容来源于网络,侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len 阅读全文
posted @ 2024-02-29 10:18 zhou-snaker 阅读(251) 评论(0) 推荐(0)