随笔分类 - 机器学习
摘要:一、 算法在训练集外的误差 $E_{o t e}\left(\mathfrak{L}_{a} | X, f\right)=\sum_{h} \sum_{x \in \mathcal{X}-X} P(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x}) \neq f
阅读全文
摘要:一、 激活函数 def sigmoid(Z): A = 1/(1+np.exp(-Z)) cache = Z return A, cache def relu(Z): A = np.maximum(0,Z) cache = Z return A, cache 二、 激活函数backward """
阅读全文
摘要:一、 创建placeholder def create_placeholders(n_H0, n_W0, n_C0, n_y): """ Creates the placeholders for the tensorflow session. Arguments: n_H0 -- scalar, h
阅读全文
摘要:一、 梯度爆炸/消失 首先我们需要知道梯度爆炸或消失的原因,我们观察Tanh这个激活函数可知,当Z接近于0时,输出A与Z的关系接近线性。 因此当神经网络的深度较大时,我们假设b的初始化参数为0,则有 $\widehat{\mathrm{y}}=\mathrm{w}^{[\mathrm{ll}} \m
阅读全文
摘要:这里引用吴恩达教授在课程中的截图。 一、 w,b分布 我们首先分析一下为什么非归一化的的cost呈现这种分布。 对于一个没有归一化的数据,X和Y可能呈现很大的数量级差距,如果X相较于Y非常大的话,改变W对Z的影响将会相对b来说非常大。 举个例子,如果Y在0,1之间,而X在100000以上,在梯度下降
阅读全文
摘要:一、 过拟合 首先我们需要明白什么是过拟合,由下图可知,对于(2)图则是出现了非常明显的过拟合。 从图中我们可以发现过拟合的特征,具有非常强的非线性特征,几乎让训练误差接近于0。 二、 正则化的思路 对于正则化,我们则是想要降低这种非线性的特征。这是我们的目的,我们来观察一下我们的非线性特征产生的原
阅读全文
摘要:从西瓜的例子来看,色泽、根蒂、敲声每种特征均有三个属性。 我们想要从所有可能性中抽取一条规则来定义什么瓜是好瓜。而我们的假设空间则包含所有可能性。 这里我们可以从两个角度得到最终结果65。 一、分别考虑 现在我们一共有3个特征,如果我们只需要从3个特征中选取一个特征中作为最终的结果(这意味着剩余两个
阅读全文

浙公网安备 33010602011771号