摘要: 数学符号英文 | 符号 | 英文 | 意义 | | | | | | $A\alpha$ | alpha | 角度、系数、角加速度、第一个、电离度、转化率 | | $B\beta$ | beta | 磁通系数、角度、系数 | | $\Gamma\gamma$ | gamma | 电导系数、角度、比热容 阅读全文
posted @ 2020-02-20 17:20 yu212223 阅读(1229) 评论(0) 推荐(0) 编辑
摘要: 卷积神经网络基础 二维互相关运算 二维互相关(cross correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处 阅读全文
posted @ 2020-02-20 00:26 yu212223 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 卷积神经网络进阶 使用全连接层的局限性: 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。 对于大尺寸的输入图像,使用全连接层容易导致模型过大。 使用卷积层的优势: 卷积层保留输入形状。 卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算,从而避免参数尺寸过大。 阅读全文
posted @ 2020-02-20 00:25 yu212223 阅读(506) 评论(0) 推荐(0) 编辑
摘要: Transformer CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。 为了整合CNN和RNN的优势, "\[Vaswani et al., 2017\]" 创新性地使用注意力机制设计了Transformer模型。该模 阅读全文
posted @ 2020-02-20 00:14 yu212223 阅读(506) 评论(0) 推荐(0) 编辑
摘要: 注意力机制和Seq2seq模型 在“编码器—解码器(seq2seq)”⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而 阅读全文
posted @ 2020-02-20 00:00 yu212223 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 Encoder Decoder 解决输出序列的长度可能与源序列的长度不同的问题 encode 阅读全文
posted @ 2020-02-18 21:34 yu212223 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络进阶 GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 RNN : $$ H_{t} = ϕ(X_{t}W_{xh} + H_{t 1}W_{hh} + b_{h}) $$ GRU : $$ R_{t} = σ(X_ 阅读全文
posted @ 2020-02-18 21:22 yu212223 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 梯度消失、梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一个层数为$L$的多层感知机的第$l$层$\boldsymbol{H}^{(l)}$的权重参数为$\boldsymbol{W}^{( 阅读全文
posted @ 2020-02-18 21:15 yu212223 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 过拟合、欠拟合及其解决方案 训练误差和泛化误差 在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上 阅读全文
posted @ 2020-02-18 21:04 yu212223 阅读(359) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络 下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量$H$,用$H_{t}$表示$H$在时间步$t$的值。$H_{t}$的计算基于$X_{t}$和$H_{t 1}$,可以认为$H_{t}$记录了到当前 阅读全文
posted @ 2020-02-14 22:30 yu212223 阅读(161) 评论(0) 推荐(0) 编辑