03 2020 档案
摘要:优化算法 梯度下降 全批量梯度下降[每次使用全量数据更新产生,易产生内存瓶颈及收敛速度慢] $$\theta = \theta - \eta \nabla_\theta J(\theta) $$ 随机梯度下降[每次使用单个样本进行训练,收敛波动性大] \(\theta = \theta - \eta
阅读全文
摘要:批归一化和层归一化 批归一化 内部协变量偏移 内部协变量偏移ICS指的是深度神经网络在训练时,随着参数的不断更新,中间隐藏层的输入分布发生较大差异,导致网络需要不断的适应新的数据分布,进而增加了学习难度。[传统解决方案:较小的学习率、合适的初始化参数] 梯度饱和 sigmoid激活函数和tanh激活
阅读全文
摘要:模型评估 基本评估指标 准确率 \(Accuracy=\frac{n_{correct}}{n_{total}} \tag{1}\) 精确率和召回率 \(Precision=\frac{TP}{TP+FP} \tag{2}\) $$ Recall=\frac{TP+FN} \tag{3}$$ F1(
阅读全文
摘要:逻辑回归Logistic Regression 模型 \(P(Y=1|x)=\frac{1}{1+e^{-(w\cdot{x}+b)}}\) 参数估计 使用极大似然估计 $$\begin \begin L(w) &= \Pi_N\sigma(z)(1-\sigma(z)){1-y_i} \ &\Ri
阅读全文