深度学习入门问题加回答

一、学习与模型（第 1 章）
Q1. 神经网络训练过程中，哪些量是已知的，哪些量是未知的？学习的目标到底是什么？
二、线性模型与非线性（第 2 章）
Q2. 为什么单层感知机只能解决线性可分问题？
Q3. 为什么必须引入非线性激活函数？
如果把神经网络中所有激活函数都去掉，会发生什么？
三、神经网络的前向计算（第 3 章）
Q4. 神经网络的前向传播，本质上在做什么数学运算？
Q5. 为什么分类问题中，输出层通常使用 Softmax？
Softmax 在概率意义上做了什么？
四、损失函数与梯度（第 4 章 · 核心）
Q6. 为什么“准确率”不能作为训练时的优化目标？
为什么必须引入损失函数？
五、梯度下降的本质（第 4 章 · 灵魂）
Q7. 梯度在几何意义上代表什么？
为什么沿着负梯度方向更新参数？
Q8. 学习率在梯度下降中起什么作用？
学习率过大会怎样？
过小又会怎样？

1. 已知：输入数据、标签、网络结构；未知：网络权重；目标：找到最优权重偏置，让网络输出尽可能贴近标签。
2. 单层感知机是线性加权求和和阶跃输出，只能用直线划分样本，无法处理非线性分布的数据。
3. 引入非线性是为了让网络拟合复杂的非线性规律；去掉所有激活函数，网络无论多少层，最终都等价于单层线性模型，只能解决线性问题。
4. 本质是逐层做线性加权求和（X·W+b），再经过激活函数的非线性变换。
5. Softmax能把输出层的任意数值映射为0-1的概率值，且所有概率和为1；概率上实现了对分类结果的归一化，让输出可解释为各类别的预测概率。
6. 准确率是离散值、非连续可导，梯度下降无法优化；损失函数是连续可导的标量，能量化预测误差，为参数更新提供梯度方向。
7. 梯度是函数在某点上升最快的方向和速率；沿负梯度走，能让损失函数值最快下降，逼近最小值。
8. 学习率控制参数每次更新的步长；过大易越过最优值、训练震荡不收敛；过小则参数更新慢，训练耗时久，易陷入局部最优

posted @ 2026-01-28 11:21 wysy 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

CodeLearnJourney

深度学习入门问题加回答

公告