人工智能十大数学知识 - 优化理论
人工智能中的优化理论核心知识(Optimization Theory for AI)
优化理论是AI模型训练的“引擎”,核心是通过数学方法找到使目标函数(如损失函数)达到极值的参数取值。从线性回归的闭式解到深度学习的Adam优化,所有模型训练本质都是求解优化问题。
1. 优化问题的基本框架(Basic Framework of Optimization)
所有优化问题的核心是:在参数的可行域内,找到使目标函数最小化(或最大化)的参数值。AI中以最小化损失函数为主(最大化问题可转化为最小化其负值)。
1.1 核心定义与通用形式
标准表示(最小化问题)
- 公式:\(\min_{\boldsymbol{\theta} \in \mathcal{D}} J(\boldsymbol{\theta})\)
各组件含义:- \(\boldsymbol{\theta}\):优化变量——AI中即模型参数(如神经网络权重\(\boldsymbol{W}\)、偏置\(\boldsymbol{b}\)、线性回归系数);
- \(\mathcal{D}\):可行域——参数的取值范围(如无约束时\(\mathcal{D}=\mathbb{R}^n\),有约束时\(\mathcal{D}\)由等式/不等式限制);
- \(J(\boldsymbol{\theta})\):目标函数——AI中称为损失函数(如均方误差MSE、交叉熵),衡量模型预测与真实值的误差。
最大化问题转化
- 公式:\(\max_{\boldsymbol{\theta} \in \mathcal{D}} J(\boldsymbol{\theta}) = \min_{\boldsymbol{\theta} \in \mathcal{D}} \left[ -J(\boldsymbol{\theta}) \right]\)
例:强化学习中“最大化累积奖励”可转化为“最小化负累积奖励”。
1.2 局部最优与全局最优解
- 局部最优解:存在\(\epsilon>0\),对所有\(\boldsymbol{\theta} \in \mathcal{D} \cap \mathcal{N}(\boldsymbol{\theta}^*, \epsilon)\)(\(\mathcal{N}\)为\(\boldsymbol{\theta}^*\)的\(\epsilon\)邻域),满足\(J(\boldsymbol{\theta}^*) \leq J(\boldsymbol{\theta})\);
- 全局最优解:对所有\(\boldsymbol{\theta} \in \mathcal{D}\),满足\(J(\boldsymbol{\theta}^*) \leq J(\boldsymbol{\theta})\)。
关键区别:AI中非凸问题(如深度神经网络)易陷入局部最优,而凸问题(如线性回归)可保证“局部最优即全局最优”。
1.3 优化问题的分类(按约束条件)
1. 无约束优化
- 形式:\(\mathcal{D}=\mathbb{R}^n\)(参数无取值限制);
- AI场景:绝大多数深度学习模型(如CNN、Transformer)、线性回归、逻辑回归的训练;
- 核心方法:梯度下降、Adam优化器等。
2. 约束优化
- 标准形式:\[\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad \begin{cases} g_i(\boldsymbol{\theta}) \leq 0 \quad (i=1,2,...,m) \quad \text{(不等式约束)} \\ h_j(\boldsymbol{\theta}) = 0 \quad (j=1,2,...,p) \quad \text{(等式约束)} \end{cases} \]
- AI场景:SVM的最大间隔约束、生成模型的概率归一化约束、强化学习的策略更新幅度限制;
- 核心方法:拉格朗日乘数法、KKT条件、对偶问题。
2. 无约束优化(Unconstrained Optimization)
无约束优化是AI最核心的场景,通过梯度信息迭代更新参数,核心工具是泰勒展开(近似目标函数局部形态)。
2.1 核心数学基础:泰勒展开
泰勒展开通过多项式近似目标函数,指导参数更新方向(一阶近似→梯度下降,二阶近似→牛顿法)。
1. 一元函数(单参数)二阶泰勒展开
- 公式:\(J(\theta + \Delta\theta) \approx J(\theta) + J'(\theta)\Delta\theta + \frac{1}{2}J''(\theta)(\Delta\theta)^2\)
其中:- \(J'(\theta)\):一阶导数(梯度的一维形式);
- \(J''(\theta)\):二阶导数(曲率信息)。
2. 多元函数(多参数)二阶泰勒展开
- 公式:
\(J(\boldsymbol{\theta} + \Delta\boldsymbol{\theta}) \approx J(\boldsymbol{\theta}) + \nabla J(\boldsymbol{\theta})^T \Delta\boldsymbol{\theta} + \frac{1}{2}\Delta\boldsymbol{\theta}^T \nabla^2 J(\boldsymbol{\theta}) \Delta\boldsymbol{\theta}\)
关键组件:- \(\nabla J(\boldsymbol{\theta})\):梯度向量(n维,\(n\)为参数个数),\(\nabla J(\boldsymbol{\theta}) = \left( \frac{\partial J}{\partial \theta_1}, \frac{\partial J}{\partial \theta_2}, ..., \frac{\partial J}{\partial \theta_n} \right)^T\);
- \(\nabla^2 J(\boldsymbol{\theta})\):海森矩阵(\(n \times n\)),元素为\((\nabla^2 J(\boldsymbol{\theta}))_{ij} = \frac{\partial^2 J}{\partial \theta_i \partial \theta_j}\)(描述函数曲率)。
2.2 极值的判定条件(最优性条件)
1. 必要条件(一阶最优性条件)
- 结论:若\(\boldsymbol{\theta}^*\)是局部极值点,则\(\nabla J(\boldsymbol{\theta}^*) = \boldsymbol{0}\)(梯度为零向量,称为“驻点”);
- AI应用:模型训练的终止条件之一(如\(\|\nabla J(\boldsymbol{\theta})\| < 10^{-6}\)),表示参数更新已无法显著降低损失。
2. 充分条件(二阶最优性条件)
- 结论:若\(\nabla J(\boldsymbol{\theta}^*) = \boldsymbol{0}\)且\(\nabla^2 J(\boldsymbol{\theta}^*)\)是正定矩阵(所有特征值\(>0\)),则\(\boldsymbol{\theta}^*\)是严格局部极小值点;
- 关键提醒:驻点可能是极小值点、极大值点或鞍点(海森矩阵特征值有正有负),AI中深度神经网络的损失函数存在大量鞍点,需通过优化算法规避。
2.3 梯度类优化算法(一阶优化)
依赖梯度(一阶信息)更新参数,计算成本低,适用于大规模参数场景(如深度学习)。
1. 批量梯度下降(BGD)
- 公式:
梯度计算(全量样本):\(\nabla J(\boldsymbol{\theta}_t) = \frac{1}{N} \sum_{i=1}^N \nabla J_i(\boldsymbol{\theta}_t)\)(\(N\)为全量样本数,\(J_i\)为第\(i\)个样本的损失);
参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\); - 特点:更新稳定(梯度无随机性),但计算量大(不适用于\(N>10^5\)的大数据集);
- AI场景:小样本机器学习模型(如小规模线性回归)。
2. 随机梯度下降(SGD)
- 公式:
梯度计算(单个随机样本):\(\nabla J(\boldsymbol{\theta}_t) = \nabla J_i(\boldsymbol{\theta}_t)\)(\(i\)为随机选取的样本索引);
参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\); - 特点:计算快(单样本梯度),但更新震荡剧烈(随机性可跳出局部最优);
- AI场景:大数据集初步训练(如ImageNet分类的初始迭代)。
3. 小批量梯度下降(Mini-batch GD)
- 公式:
梯度计算(小批量样本):\(\nabla J(\boldsymbol{\theta}_t) = \frac{1}{B} \sum_{i \in \mathcal{B}} \nabla J_i(\boldsymbol{\theta}_t)\)(\(\mathcal{B}\)为随机选取的小批量,\(B\)常用32、64、128);
参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\); - 特点:平衡BGD的稳定性和SGD的高效性,是AI中最常用的基础优化算法;
- AI场景:CNN、Transformer、RNN等深度学习模型的核心训练算法。
4. 改进型梯度算法(解决SGD缺陷)
(1)动量梯度下降(Momentum)
- 核心思想:累积历史梯度的“惯性”,加速平缓方向更新,抑制震荡;
- 公式:
动量累积:\(v_t = \gamma v_{t-1} + \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)(\(\gamma\)为动量系数,常用0.9);
参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - v_t\); - AI场景:CNN图像分类、RNN时序预测,解决SGD在鞍点附近的震荡问题。
(2)Adam优化器(Adaptive Moment Estimation)
- 核心优势:结合动量(一阶矩) 和自适应学习率(二阶矩),平衡收敛速度与稳定性;
- 公式:
一阶矩(梯度均值,动量):\(m_t = \beta_1 m_{t-1} + (1-\beta_1) \nabla J(\boldsymbol{\theta}_t)\);
二阶矩(梯度方差,自适应步长):\(v_t = \beta_2 v_{t-1} + (1-\beta_2) [\nabla J(\boldsymbol{\theta}_t)]^2\);
偏差修正(解决初始阶段矩估计偏置):\(\hat{m}_t = \frac{m_t}{1-\beta_1^t}\),\(\hat{v}_t = \frac{v_t}{1-\beta_2^t}\);
参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}\);
其中:\(\beta_1=0.9\),\(\beta_2=0.999\)(衰减系数),\(\epsilon=10^{-8}\)(防止除零),\(\alpha\)为初始学习率(常用\(10^{-3}\)); - AI场景:BERT、ResNet、YOLO等大型模型,是当前工业界最流行的优化器。
2.4 牛顿类算法(二阶优化)
依赖梯度(一阶)和海森矩阵(二阶),收敛快但计算成本高,适用于小规模参数场景。
1. 牛顿法
- 公式:参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - [\nabla^2 J(\boldsymbol{\theta}_t)]^{-1} \nabla J(\boldsymbol{\theta}_t)\);
其中\([\nabla^2 J(\boldsymbol{\theta}_t)]^{-1}\)是海森矩阵的逆矩阵; - 特点:二次收敛(比梯度下降快一个量级),但计算复杂度\(O(n^3)\)(\(n\)为参数维度);
- AI场景:逻辑回归、SVM(参数维度\(n<10^4\)),不适用于深度学习(\(n\)达百万级)。
2. 拟牛顿法(BFGS/L-BFGS)
- 核心思想:用梯度历史信息近似海森矩阵的逆(避免直接计算海森矩阵);
- 代表算法:L-BFGS(限制内存版,仅存储近期梯度信息);
- AI场景:XGBoost/LightGBM的基学习器训练、强化学习的策略优化(小规模参数)。
3. 约束优化(Constrained Optimization)
AI中部分模型需在约束下优化(如SVM的间隔约束),核心是“将约束转化为无约束问题”。
3.1 拉格朗日乘数法(等式约束优化)
1. 问题形式
\(\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad h_j(\boldsymbol{\theta}) = 0 \quad (j=1,2,...,p)\)(仅等式约束)。
2. 拉格朗日函数
- 公式:\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}) = J(\boldsymbol{\theta}) + \sum_{j=1}^p \lambda_j h_j(\boldsymbol{\theta})\);
其中\(\lambda_j\)为拉格朗日乘数(新的优化变量,与约束一一对应)。
3. 最优性条件
- 结论:原问题的最优解\(\boldsymbol{\theta}^*\)需满足:
\(\nabla_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}^*, \boldsymbol{\lambda}^*) = \boldsymbol{0}\) 且 \(\nabla_{\boldsymbol{\lambda}} \mathcal{L}(\boldsymbol{\theta}^*, \boldsymbol{\lambda}^*) = \boldsymbol{0}\)(即\(h_j(\boldsymbol{\theta}^*) = 0\)); - AI场景:PCA的方差最大化约束、矩阵分解(MF)的秩约束。
3.2 拉格朗日对偶问题(不等式约束优化)
1. 原问题形式
\(\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad g_i(\boldsymbol{\theta}) \leq 0 \ (i=1,...,m), \ h_j(\boldsymbol{\theta}) = 0 \ (j=1,...,p)\)。
2. 拉格朗日函数与对偶函数
- 拉格朗日函数:
\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}, \boldsymbol{\mu}) = J(\boldsymbol{\theta}) + \sum_{i=1}^m \lambda_i g_i(\boldsymbol{\theta}) + \sum_{j=1}^p \mu_j h_j(\boldsymbol{\theta})\);
其中\(\lambda_i \geq 0\)(不等式约束的乘数非负,保证约束方向),\(\mu_j\)为等式约束乘数。 - 对偶函数(原问题的下界函数):\(D(\boldsymbol{\lambda}, \boldsymbol{\mu}) = \min_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}, \boldsymbol{\mu})\);
- 对偶问题(最大化下界):\(\max_{\boldsymbol{\lambda} \geq 0, \boldsymbol{\mu}} D(\boldsymbol{\lambda}, \boldsymbol{\mu})\)。
3. 强对偶性(AI核心结论)
- 条件:原问题是凸优化问题且满足“Slater条件”(存在\(\boldsymbol{\theta}\)使所有\(g_i(\boldsymbol{\theta}) < 0\)、\(h_j(\boldsymbol{\theta}) = 0\));
- 结论:原问题与对偶问题的最优值相等(\(J(\boldsymbol{\theta}^*) = D(\boldsymbol{\lambda}^*, \boldsymbol{\mu}^*)\));
- AI应用:SVM通过对偶问题将“高维特征空间的分类”转化为“低维样本间的内积计算”,降低复杂度。
3.3 KKT条件(约束优化最优性充要条件)
- 适用场景:满足强对偶性的约束优化问题;
- 核心条件(\(\boldsymbol{\theta}^*\)为原问题最优解,\(\boldsymbol{\lambda}^*、\boldsymbol{\mu}^*\)为对偶问题最优解):
- 可行性:\(g_i(\boldsymbol{\theta}^*) \leq 0\),\(h_j(\boldsymbol{\theta}^*) = 0\)(满足原约束);
- 互补松弛:\(\lambda_i^* g_i(\boldsymbol{\theta}^*) = 0\)(要么\(\lambda_i^* = 0\)(约束无效),要么\(g_i(\boldsymbol{\theta}^*) = 0\)(约束有效));
- 梯度条件:\(\nabla J(\boldsymbol{\theta}^*) + \sum_{i=1}^m \lambda_i^* \nabla g_i(\boldsymbol{\theta}^*) + \sum_{j=1}^p \mu_j^* \nabla h_j(\boldsymbol{\theta}^*) = \boldsymbol{0}\);
- 对偶可行性:\(\lambda_i^* \geq 0\);
- AI应用:SVM中,互补松弛条件表明“仅支持向量(\(g_i(\boldsymbol{\theta}^*) = 0\))对模型有贡献”,解释了SVM的稀疏性。
4. 凸优化(Convex Optimization)
凸优化是“可信赖”的优化框架,核心优势是“局部最优即全局最优”,是经典机器学习模型的理论基础。
4.1 核心定义:凸集与凸函数
1. 凸集
- 定义:集合\(\mathcal{C} \subseteq \mathbb{R}^n\)是凸集,若对任意\(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \in \mathcal{C}\)和\(\alpha \in [0,1]\),有:
\(\alpha \boldsymbol{\theta}_1 + (1 - \alpha) \boldsymbol{\theta}_2 \in \mathcal{C}\); - 常见凸集:\(\mathbb{R}^n\)(全空间)、超平面\(\{\boldsymbol{\theta} \mid \boldsymbol{a}^T \boldsymbol{\theta} = b\}\)、半空间\(\{\boldsymbol{\theta} \mid \boldsymbol{a}^T \boldsymbol{\theta} \leq b\}\);
- 意义:保证优化过程中参数更新的“路径”始终在可行域内。
2. 凸函数
- 定义:函数\(J: \mathcal{C} \to \mathbb{R}\)(\(\mathcal{C}\)为凸集)是凸函数,若对任意\(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \in \mathcal{C}\)和\(\alpha \in [0,1]\),有:
\(J(\alpha \boldsymbol{\theta}_1 + (1 - \alpha) \boldsymbol{\theta}_2) \leq \alpha J(\boldsymbol{\theta}_1) + (1 - \alpha) J(\boldsymbol{\theta}_2)\); - 严格凸函数:不等式严格成立(\(\alpha \in (0,1)\)),保证全局最优解唯一。
4.2 凸函数的判定条件
1. 一阶条件(可微凸函数)
- 公式:\(J(\boldsymbol{\theta}_2) \geq J(\boldsymbol{\theta}_1) + \nabla J(\boldsymbol{\theta}_1)^T (\boldsymbol{\theta}_2 - \boldsymbol{\theta}_1)\);
- 意义:函数图像始终在任意点的切线之上,梯度下降的每一步更新都能降低损失。
2. 二阶条件(二阶可微凸函数)
- 结论:海森矩阵\(\nabla^2 J(\boldsymbol{\theta})\)对所有\(\boldsymbol{\theta} \in \mathcal{C}\)是半正定矩阵(特征值\(\geq 0\));若海森矩阵正定(特征值\(>0\)),则函数是严格凸函数。
3. AI中常见的凸函数
- 线性函数:\(J(\boldsymbol{\theta}) = \boldsymbol{a}^T \boldsymbol{\theta} + b\)(既是凸函数也是凹函数);
- 二次函数:\(J(\boldsymbol{\theta}) = \frac{1}{2} \boldsymbol{\theta}^T A \boldsymbol{\theta} + \boldsymbol{b}^T \boldsymbol{\theta} + c\)(\(A\)半正定时为凸函数);
- 逻辑回归损失:\(J(\boldsymbol{\theta}) = -\sum_{i=1}^N [y_i \log p_i + (1 - y_i) \log (1 - p_i)]\)(严格凸函数);
- L2正则项:\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_2^2\)(严格凸函数)。
4.3 凸优化的关键结论
- 凸函数的局部极小值是全局极小值;
- 凸优化问题的最优解集合是凸集(若存在多个最优解,其凸组合也是最优解);
- 凸函数与仿射变换(如\(J(A\boldsymbol{\theta} + b)\))的复合仍是凸函数;
- AI意义:线性回归、逻辑回归、SVM等凸优化问题,无需担心陷入局部最优,可通过梯度下降快速求解。
5. 正则化与泛化优化(Regularization & Generalization)
AI优化的目标不仅是“最小化训练损失”,更要“最大化泛化能力”(对新数据的预测性能),正则化是核心手段。
5.1 正则化的本质
- 公式(带正则化的目标函数):
\(\min_{\boldsymbol{\theta}} J_{reg}(\boldsymbol{\theta}) = J(\boldsymbol{\theta}) + \lambda R(\boldsymbol{\theta})\);
组件含义:- \(J(\boldsymbol{\theta})\):经验损失(训练数据上的误差,如MSE、交叉熵);
- \(R(\boldsymbol{\theta})\):正则化项(惩罚参数复杂度,防止过拟合);
- \(\lambda > 0\):正则化强度(平衡经验损失与泛化能力,\(\lambda\)过大易欠拟合,过小易过拟合)。
5.2 常用正则化项及AI应用
1. L2正则化(岭回归/Ridge)
- 公式:\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_2^2 = \boldsymbol{\theta}^T \boldsymbol{\theta} = \sum_{i=1}^n \theta_i^2\)(L2范数的平方);
- 带L2正则的线性回归损失:
\(J_{reg}(\boldsymbol{\theta}) = \frac{1}{2N} \sum_{i=1}^N (y_i - \boldsymbol{\theta}^T \boldsymbol{x}_i)^2 + \frac{\lambda}{2} \|\boldsymbol{\theta}\|_2^2\); - 作用:惩罚权重的平方和,使参数倾向于取较小值(“权重衰减”),降低模型复杂度;
- AI场景:神经网络的权重衰减(Weight Decay)、岭回归、推荐系统的矩阵分解。
2. L1正则化(Lasso回归)
- 公式:\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_1 = \sum_{i=1}^n |\theta_i|\)(L1范数);
- 带L1正则的线性回归损失:
\(J_{reg}(\boldsymbol{\theta}) = \frac{1}{2N} \sum_{i=1}^N (y_i - \boldsymbol{\theta}^T \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{\theta}\|_1\); - 作用:惩罚权重的绝对值和,倾向于使部分参数变为0(稀疏性),实现“特征选择”;
- AI场景:Lasso回归(自动剔除无关特征)、压缩感知(图像重建)、NLP的词嵌入优化。
3. 弹性网(Elastic Net)
- 公式:\(R(\boldsymbol{\theta}) = \lambda_1 \|\boldsymbol{\theta}\|_1 + \lambda_2 \|\boldsymbol{\theta}\|_2^2\)(融合L1和L2正则);
- 作用:兼顾L1的特征选择和L2的权重平滑,避免L1在多重共线性数据上的不稳定性;
- AI场景:高维基因数据分类、推荐系统的高维用户/物品特征优化。
4. Dropout(深度学习专属正则化)
- 核心思想:训练时随机将部分神经元的输出置为0(概率\(p\),常用0.5),测试时不置零但对输出乘以\((1-p)\)(保持期望一致);
- 作用:防止模型过度依赖某几个神经元的特征,增强泛化能力;
- AI场景:CNN图像分类、MLP多层感知机、Transformer的前馈网络。
6. 优化理论在AI中的典型应用
| 领域 | 模型/任务 | 优化类型 | 核心优化算法/工具 | 关键正则化手段 |
|---|---|---|---|---|
| 机器学习 | 线性回归 | 无约束凸优化 | 梯度下降/闭式解(\((X^T X)^{-1} X^T y\)) | L2正则(岭回归) |
| 机器学习 | 逻辑回归 | 无约束凸优化 | SGD/Adam | L1/L2正则 |
| 机器学习 | SVM | 约束凸优化 | 拉格朗日对偶+KKT条件 | 间隔约束(内置正则) |
| 深度学习 | CNN(图像分类) | 无约束非凸优化 | Mini-batch GD/Momentum | Dropout/L2正则 |
| 深度学习 | Transformer(BERT/GPT) | 无约束非凸优化 | Adam | 权重衰减/标签平滑 |
| 深度学习 | GAN(生成对抗网络) | 双人非零和博弈 | 交替训练(生成器:Adam;判别器:SGD) | 梯度裁剪 |
| 推荐系统 | 矩阵分解(MF) | 约束凸优化 | 拉格朗日乘数法 | L2正则 |
| 强化学习 | PPO(近端策略优化) | 约束非凸优化 | 梯度下降(限制策略更新幅度) | 策略裁剪 |
附录:优化理论核心符号总结(读音+使用场景)
| 符号 | 写法规范 | 读音 | 核心使用场景 |
|---|---|---|---|
| \(\boldsymbol{\theta}\) | 加粗希腊字母theta | “西塔” | 优化变量(AI中为模型参数,如权重、偏置) |
| \(J(\boldsymbol{\theta})\) | 大写J+参数theta | “J of 西塔” | 目标函数(AI中为损失函数,如MSE、交叉熵) |
| \(\nabla J(\boldsymbol{\theta})\) | nabla+J(theta) | “nabla J of 西塔” | 梯度向量(一阶导数,指导梯度下降的更新方向) |
| \(\nabla^2 J(\boldsymbol{\theta})\) | nabla平方+J(theta) | “nabla平方 J of 西塔” | 海森矩阵(二阶导数矩阵,描述函数曲率,用于牛顿法) |
| \(\eta\) | 希腊字母eta | “伊塔” | 学习率(梯度下降中控制参数更新步长,常用\(10^{-3}\)、\(10^{-4}\)) |
| \(\lambda\) | 希腊字母lambda | “拉姆达” | 1. 正则化强度(控制正则化项权重);2. 拉格朗日乘数(约束优化中的对偶变量) |
| \(\gamma\) | 希腊字母gamma | “伽马” | 动量系数(动量梯度下降中,常用0.9,累积历史梯度惯性) |
| \(\beta_1, \beta_2\) | 希腊字母beta带下标 | “贝塔1,贝塔2” | Adam优化器的衰减系数(默认0.9、0.999,控制一阶/二阶矩的累积速度) |
| \(\epsilon\) | 希腊字母epsilon | “伊普西隆” | 小常数(防止除零或数值不稳定,常用\(10^{-8}\)) |
| \(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda})\) | 花体L+参数 | “拉格朗日函数” | 拉格朗日函数(将约束优化转化为无约束优化) |
| \(|\boldsymbol{\theta}|_p\) | 双竖线+下标p | “西塔的p范数” | 范数(L1范数\(p=1\)用于特征选择,L2范数\(p=2\)用于权重衰减) |
| \(N\) | 大写N | “N” | 样本总数(批量梯度下降中全量样本数) |
| \(B\) | 大写B | “B” | 小批量样本数(Mini-batch GD中常用32、64、128) |
浙公网安备 33010602011771号