2024年3月3日
摘要: 个人学习使用,侵权删 参考来源: 为什么Transformer要用LayerNorm 为什么Transformer模型使用layernorm而不是batchnorm transformer 为什么使用 layer normalization,而不是其他的归一化方法? 阅读全文
posted @ 2024-03-03 20:20 zhou-snaker 阅读(21) 评论(0) 推荐(0) 编辑
  2024年3月1日
摘要: 个人学习使用,侵权删 为什么Transformer 需要进行 Multi-head Attention? - 月来客栈的回答 - 知乎 注意力机制(Attention) transformer中为什么使用不同的K 和 Q, 为什么不能使用同一个值? 阅读全文
posted @ 2024-03-01 13:38 zhou-snaker 阅读(3) 评论(0) 推荐(0) 编辑
  2024年2月29日
摘要: 个人学习使用,内容来源于网络,侵权删 参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎 阅读全文
posted @ 2024-02-29 12:27 zhou-snaker 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 个人学习使用,内容来源于网络,侵权删 手推softmax的求导 阅读全文
posted @ 2024-02-29 12:23 zhou-snaker 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 个人学习所使用,内容来源于网络,侵权删 为什么Pre Norm的效果不如Post Norm? Post-Norm VS Pre-Norm 阅读全文
posted @ 2024-02-29 10:55 zhou-snaker 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 个人学习使用,内容来源于网络,侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len 阅读全文
posted @ 2024-02-29 10:18 zhou-snaker 阅读(32) 评论(0) 推荐(0) 编辑
  2024年2月28日
摘要: 个人学习使用,内容来源于网络,侵权删 信息流通与梯度传播:残差连接通过允许信息跳过多个层和帮助梯度更顺畅地回流,共同促进了网络中的信息流通和梯度传播。 模型深度与特征重用:残差网络能够构建更深的模型,并通过残差连接重用早期特征,提高了模型的表达能力和特征利用率。 表示能力与初始化简化:残差连接增加了 阅读全文
posted @ 2024-02-28 14:33 zhou-snaker 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 个人学习使用,内容来源于网络,侵权删 首先对于上图,\(low\space bias\space and\space low \space variance\)是我们最希望得到的,它对应着图2中的交点,自然说明此时我们的模型非常好,因此可能会出现 对于第二张图,此时则考虑出现过拟合的情况,即方差较大 阅读全文
posted @ 2024-02-28 12:59 zhou-snaker 阅读(5) 评论(0) 推荐(0) 编辑
  2024年2月27日
摘要: 个人学习使用,内容来源于网络,侵权删 1. 基本原理 传统网络的结构: RNN的结构: 使用场景: 语音识别,要按顺序处理每一帧的声音信息,有些结果需要根据上下文进行识别; 自然语言处理,要依次读取各个单词,识别某段文字的语义 这些场景都有一个特点,就是都与时间序列有关,且输入的序列数据长度是不固定 阅读全文
posted @ 2024-02-27 21:21 zhou-snaker 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 个人学习使用,内容来源于网络,侵权删 双向RNN如下, 做两遍计算:第一遍先正向计算隐状态h,保存成一个序列,顺序是t时刻从1到T。第二遍,将输入反转,计算隐状态h,保存为一个序列,这样顺序就是t时刻从T到1. 最后在计算output,这样在计算output时,所有时刻的隐状态都是已经计算出来了。 阅读全文
posted @ 2024-02-27 20:58 zhou-snaker 阅读(8) 评论(0) 推荐(0) 编辑