2024年3月3日
摘要:
个人学习使用,侵权删 参考来源: 为什么Transformer要用LayerNorm 为什么Transformer模型使用layernorm而不是batchnorm transformer 为什么使用 layer normalization,而不是其他的归一化方法?
阅读全文
posted @ 2024-03-03 20:20
zhou-snaker
阅读(263)
推荐(0)
2024年3月1日
摘要:
个人学习使用,侵权删 为什么Transformer 需要进行 Multi-head Attention? - 月来客栈的回答 - 知乎 注意力机制(Attention) transformer中为什么使用不同的K 和 Q, 为什么不能使用同一个值?
阅读全文
posted @ 2024-03-01 13:38
zhou-snaker
阅读(16)
推荐(0)
2024年2月29日
摘要:
个人学习使用,内容来源于网络,侵权删 参考链接:transformer中的attention为什么scaled? - 小莲子的回答 - 知乎
阅读全文
posted @ 2024-02-29 12:27
zhou-snaker
阅读(12)
推荐(0)
摘要:
个人学习使用,内容来源于网络,侵权删 手推softmax的求导
阅读全文
posted @ 2024-02-29 12:23
zhou-snaker
阅读(15)
推荐(0)
摘要:
个人学习所使用,内容来源于网络,侵权删 为什么Pre Norm的效果不如Post Norm? Post-Norm VS Pre-Norm
阅读全文
posted @ 2024-02-29 10:55
zhou-snaker
阅读(110)
推荐(0)
摘要:
个人学习使用,内容来源于网络,侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len
阅读全文
posted @ 2024-02-29 10:18
zhou-snaker
阅读(251)
推荐(0)
2024年2月28日
摘要:
个人学习使用,内容来源于网络,侵权删 信息流通与梯度传播:残差连接通过允许信息跳过多个层和帮助梯度更顺畅地回流,共同促进了网络中的信息流通和梯度传播。 模型深度与特征重用:残差网络能够构建更深的模型,并通过残差连接重用早期特征,提高了模型的表达能力和特征利用率。 表示能力与初始化简化:残差连接增加了
阅读全文
posted @ 2024-02-28 14:33
zhou-snaker
阅读(433)
推荐(0)
摘要:
个人学习使用,内容来源于网络,侵权删 首先对于上图,\(low\space bias\space and\space low \space variance\)是我们最希望得到的,它对应着图2中的交点,自然说明此时我们的模型非常好,因此可能会出现 对于第二张图,此时则考虑出现过拟合的情况,即方差较大
阅读全文
posted @ 2024-02-28 12:59
zhou-snaker
阅读(85)
推荐(0)
2024年2月27日
摘要:
个人学习使用,内容来源于网络,侵权删 1. 基本原理 传统网络的结构: RNN的结构: 使用场景: 语音识别,要按顺序处理每一帧的声音信息,有些结果需要根据上下文进行识别; 自然语言处理,要依次读取各个单词,识别某段文字的语义 这些场景都有一个特点,就是都与时间序列有关,且输入的序列数据长度是不固定
阅读全文
posted @ 2024-02-27 21:21
zhou-snaker
阅读(152)
推荐(0)
摘要:
个人学习使用,内容来源于网络,侵权删 双向RNN如下, 做两遍计算:第一遍先正向计算隐状态h,保存成一个序列,顺序是t时刻从1到T。第二遍,将输入反转,计算隐状态h,保存为一个序列,这样顺序就是t时刻从T到1. 最后在计算output,这样在计算output时,所有时刻的隐状态都是已经计算出来了。
阅读全文
posted @ 2024-02-27 20:58
zhou-snaker
阅读(56)
推荐(0)