深度学习入门问题加回答
一、学习与模型(第 1 章)
Q1. 神经网络训练过程中,哪些量是已知的,哪些量是未知的?学习的目标到底是什么?
二、线性模型与非线性(第 2 章)
Q2. 为什么单层感知机只能解决线性可分问题?
Q3. 为什么必须引入非线性激活函数?
如果把神经网络中所有激活函数都去掉,会发生什么?
三、神经网络的前向计算(第 3 章)
Q4. 神经网络的前向传播,本质上在做什么数学运算?
Q5. 为什么分类问题中,输出层通常使用 Softmax?
Softmax 在概率意义上做了什么?
四、损失函数与梯度(第 4 章 · 核心)
Q6. 为什么“准确率”不能作为训练时的优化目标?
为什么必须引入损失函数?
五、梯度下降的本质(第 4 章 · 灵魂)
Q7. 梯度在几何意义上代表什么?
为什么沿着负梯度方向更新参数?
Q8. 学习率在梯度下降中起什么作用?
学习率过大会怎样?
过小又会怎样?
1. 已知:输入数据、标签、网络结构;未知:网络权重;目标:找到最优权重偏置,让网络输出尽可能贴近标签。
2. 单层感知机是线性加权求和和阶跃输出,只能用直线划分样本,无法处理非线性分布的数据。
3. 引入非线性是为了让网络拟合复杂的非线性规律;去掉所有激活函数,网络无论多少层,最终都等价于单层线性模型,只能解决线性问题。
4. 本质是逐层做线性加权求和(X·W+b),再经过激活函数的非线性变换。
5. Softmax能把输出层的任意数值映射为0-1的概率值,且所有概率和为1;概率上实现了对分类结果的归一化,让输出可解释为各类别的预测概率。
6. 准确率是离散值、非连续可导,梯度下降无法优化;损失函数是连续可导的标量,能量化预测误差,为参数更新提供梯度方向。
7. 梯度是函数在某点上升最快的方向和速率;沿负梯度走,能让损失函数值最快下降,逼近最小值。
8. 学习率控制参数每次更新的步长;过大易越过最优值、训练震荡不收敛;过小则参数更新慢,训练耗时久,易陷入局部最优

浙公网安备 33010602011771号