摘要: 当层数较多时,梯度的计算也容易出现消失或爆炸 随机初始化模型参数 在神经网络中,通常需要随机初始化模型参数。下面我们来解释这样做的原因。 回顾多层感知机一节描述的多层感知机。为了方便解释,假设输出层只保留一个输出单元o1(删去o2和o3以及指向它们的箭头),且隐藏层使用相同的激活函数。如果将每个隐藏 阅读全文
posted @ 2020-02-18 16:39 CathyChen111 阅读(158) 评论(0) 推荐(0)
摘要: 训练误差与泛化误差 训练误差:训练数据集上表现出的误差 泛化误差:模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。 机器学习模型应关注降低泛化误差。 模型的选择 测试集只能在所有超参数和模型参数选定后使用一次。即选了模型之后,才能用测试集来测试,不能用测试集来选模 阅读全文
posted @ 2020-02-18 16:35 CathyChen111 阅读(216) 评论(0) 推荐(0)
摘要: 函数运用: backward() 如果需要计算导数,可以在Tensor上调.backward(); backward(gradient=None, retain_variables=False)[sound] 如果Tensor是标量(即它包含一个元素的数据),则不需要为backward()指定任何参 阅读全文
posted @ 2020-02-18 16:28 CathyChen111 阅读(142) 评论(0) 推荐(0)