zhou-snaker - 博客园

摘要：个人学习使用，内容来源于网络，侵权删 1. 公式 2. 原理 3. 代码实现 # Positional Encoding代码实现 class PositionalEncoding(nn.Module): def __init__(self, d_model, dropout=0.1, max_len 阅读全文

posted @ 2024-02-29 10:18 zhou-snaker 阅读(32) 评论(0) 推荐(0) 编辑

2024年2月28日

残差网络优点以及缓解梯度消失原因

摘要：个人学习使用，内容来源于网络，侵权删信息流通与梯度传播：残差连接通过允许信息跳过多个层和帮助梯度更顺畅地回流，共同促进了网络中的信息流通和梯度传播。模型深度与特征重用：残差网络能够构建更深的模型，并通过残差连接重用早期特征，提高了模型的表达能力和特征利用率。表示能力与初始化简化：残差连接增加了阅读全文

posted @ 2024-02-28 14:33 zhou-snaker 阅读(8) 评论(0) 推荐(0) 编辑

高方差与过拟合，高偏差与欠拟合

摘要：个人学习使用，内容来源于网络，侵权删首先对于上图，\(low\space bias\space and\space low \space variance\)是我们最希望得到的，它对应着图2中的交点，自然说明此时我们的模型非常好，因此可能会出现对于第二张图，此时则考虑出现过拟合的情况，即方差较大阅读全文

posted @ 2024-02-28 12:59 zhou-snaker 阅读(5) 评论(0) 推荐(0) 编辑

2024年2月27日

RNN循环神经网络&LSTM长短期记忆网络&GRU

摘要：个人学习使用，内容来源于网络，侵权删 1. 基本原理传统网络的结构： RNN的结构：使用场景：语音识别，要按顺序处理每一帧的声音信息，有些结果需要根据上下文进行识别；自然语言处理，要依次读取各个单词，识别某段文字的语义这些场景都有一个特点，就是都与时间序列有关，且输入的序列数据长度是不固定阅读全文

posted @ 2024-02-27 21:21 zhou-snaker 阅读(7) 评论(0) 推荐(0) 编辑

双向RNN计算实现&多层RNN

摘要：个人学习使用，内容来源于网络，侵权删双向RNN如下，做两遍计算：第一遍先正向计算隐状态h，保存成一个序列，顺序是t时刻从1到T。第二遍，将输入反转，计算隐状态h，保存为一个序列，这样顺序就是t时刻从T到1. 最后在计算output，这样在计算output时，所有时刻的隐状态都是已经计算出来了。阅读全文

posted @ 2024-02-27 20:58 zhou-snaker 阅读(8) 评论(0) 推荐(0) 编辑