摘要: 读取和存储 在实际中,我们有时需要把训练好的模型部署到很多不同的设备。在这种情况下,我们可以把内存中训练好的模型参数存储在硬盘上供后续读取使用。 读写NDArray 可以直接使用save函数和load函数分别存储和读取NDArray 创建了NDArray变量x,并将其存在文件名同为x的文件里: #导 阅读全文
posted @ 2021-02-19 13:12 strategist_614 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 自定义层 本节将介绍如何使用NDArray来自定义一个Gluon的层,从而可以被重复调用。 不含模型参数的自定义层 下面的CenteredLayer类通过继承Block类自定义了一个将输入减掉均值后输出的层,并将层的计算定义在了forward函数里。这个层里不含模型参数。 #导包 from mxne 阅读全文
posted @ 2021-02-19 12:19 strategist_614 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 模型参数的延后初始化 延后初始化 在上一节使用的多层感知机net里,我们创建的隐藏层仅仅指定了输出大小为256。当调用initialize函数时,由于隐藏层输入个数依然未知,系统也无法得知该层权重参数的形状。只有在当我们将形状是(2, 20)的输入$X$传进网络做前向计算net(X)时,系统才推断出 阅读全文
posted @ 2021-02-18 14:23 strategist_614 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 模型参数的访问、初始化和共享 使用默认方式初始化它的参数,并做一次前向计算。 #导包 from mxnet import init, nd from mxnet.gluon import nn #实例化Sequential类 net = nn.Sequential() #添加隐藏层 net.add( 阅读全文
posted @ 2021-02-18 13:35 strategist_614 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Float Point Fractional Binary Numbers Representation Bits to right of "binary point" represent fractional powers of \(2\) Represents rational number: 阅读全文
posted @ 2021-02-18 00:34 strategist_614 阅读(40) 评论(0) 推荐(0) 编辑
摘要: 模型构造 基于Block类的模型构造方法:它让模型构造更加灵活。 继承Block类来构造模型 Block类是nn模块里提供的一个模型构造类,我们可以继承它来定义我们想要的模型。下面继承Block类构造本节开头提到的多层感知机。这里定义的MLP类重载了Block类的__init__函数和forward 阅读全文
posted @ 2021-02-17 14:53 strategist_614 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 实战Kaggle比赛:房价预测 读取数据集 两个数据集都包括每栋房子的特征,如街道类型、建造年份、房顶类型、地下室状况等特征值。这些特征值有连续的数字、离散的标签甚至是缺失值“na”。只有训练数据集包括了每栋房子的价格,也就是标签。 下面使用pandas读取这两个文件。 #训练数据加载 train_ 阅读全文
posted @ 2021-02-16 12:03 strategist_614 阅读(450) 评论(0) 推荐(0) 编辑
摘要: 数值稳定性和模型初始化 目标:深度学习模型的数值稳定性问题以及模型参数的初始化方法。 深度模型有关数值稳定性的典型问题是衰减(vanishing)和爆炸(explosion)。 衰减和爆炸 当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为$L$的多层感知机的第$l$层$\boldsy 阅读全文
posted @ 2021-02-15 11:28 strategist_614 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 正向传播、反向传播和计算图 使用数学来描述正向传播和反向传播。具体来说,我们将以带 \(L2\) 范数正则化的含单隐藏层的多层感知机为样例模型解释正向传播和反向传播。 正向传播 正向传播(forward propagation)是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量( 阅读全文
posted @ 2021-02-15 10:41 strategist_614 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 丢弃法 深度学习模型常常使用丢弃法(dropout) 来应对过拟合问题。本节中提到的丢弃法特指倒置丢弃法(inverted dropout) 输入个数为4,隐藏单元个数为5,且隐藏单元$h_i$(\(i=1, \ldots, 5\))的计算表达式为 \(h_i = \phi\left(x_1 w_{ 阅读全文
posted @ 2021-02-12 17:14 strategist_614 阅读(123) 评论(0) 推荐(0) 编辑