人工智能十大数学知识 - 优化理论

人工智能中的优化理论核心知识（Optimization Theory for AI）

优化理论是AI模型训练的“引擎”，核心是通过数学方法找到使目标函数（如损失函数）达到极值的参数取值。从线性回归的闭式解到深度学习的Adam优化，所有模型训练本质都是求解优化问题。

1. 优化问题的基本框架（Basic Framework of Optimization）

所有优化问题的核心是：在参数的可行域内，找到使目标函数最小化（或最大化）的参数值。AI中以最小化损失函数为主（最大化问题可转化为最小化其负值）。

1.1 核心定义与通用形式

标准表示（最小化问题）

公式：\(\min_{\boldsymbol{\theta} \in \mathcal{D}} J(\boldsymbol{\theta})\)
各组件含义：
- \(\boldsymbol{\theta}\)：优化变量——AI中即模型参数（如神经网络权重\(\boldsymbol{W}\)、偏置\(\boldsymbol{b}\)、线性回归系数）；
- \(\mathcal{D}\)：可行域——参数的取值范围（如无约束时\(\mathcal{D}=\mathbb{R}^n\)，有约束时\(\mathcal{D}\)由等式/不等式限制）；
- \(J(\boldsymbol{\theta})\)：目标函数——AI中称为损失函数（如均方误差MSE、交叉熵），衡量模型预测与真实值的误差。

最大化问题转化

公式：\(\max_{\boldsymbol{\theta} \in \mathcal{D}} J(\boldsymbol{\theta}) = \min_{\boldsymbol{\theta} \in \mathcal{D}} \left[ -J(\boldsymbol{\theta}) \right]\)
例：强化学习中“最大化累积奖励”可转化为“最小化负累积奖励”。

1.2 局部最优与全局最优解

局部最优解：存在\(\epsilon>0\)，对所有\(\boldsymbol{\theta} \in \mathcal{D} \cap \mathcal{N}(\boldsymbol{\theta}^*, \epsilon)\)（\(\mathcal{N}\)为\(\boldsymbol{\theta}^*\)的\(\epsilon\)邻域），满足\(J(\boldsymbol{\theta}^*) \leq J(\boldsymbol{\theta})\)；
全局最优解：对所有\(\boldsymbol{\theta} \in \mathcal{D}\)，满足\(J(\boldsymbol{\theta}^*) \leq J(\boldsymbol{\theta})\)。

关键区别：AI中非凸问题（如深度神经网络）易陷入局部最优，而凸问题（如线性回归）可保证“局部最优即全局最优”。

1.3 优化问题的分类（按约束条件）

1. 无约束优化

形式：\(\mathcal{D}=\mathbb{R}^n\)（参数无取值限制）；
AI场景：绝大多数深度学习模型（如CNN、Transformer）、线性回归、逻辑回归的训练；
核心方法：梯度下降、Adam优化器等。

2. 约束优化

标准形式：
\[\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad \begin{cases} g_i(\boldsymbol{\theta}) \leq 0 \quad (i=1,2,...,m) \quad \text{（不等式约束）} \\ h_j(\boldsymbol{\theta}) = 0 \quad (j=1,2,...,p) \quad \text{（等式约束）} \end{cases} \]
AI场景：SVM的最大间隔约束、生成模型的概率归一化约束、强化学习的策略更新幅度限制；
核心方法：拉格朗日乘数法、KKT条件、对偶问题。

2. 无约束优化（Unconstrained Optimization）

无约束优化是AI最核心的场景，通过梯度信息迭代更新参数，核心工具是泰勒展开（近似目标函数局部形态）。

2.1 核心数学基础：泰勒展开

泰勒展开通过多项式近似目标函数，指导参数更新方向（一阶近似→梯度下降，二阶近似→牛顿法）。

1. 一元函数（单参数）二阶泰勒展开

公式：\(J(\theta + \Delta\theta) \approx J(\theta) + J'(\theta)\Delta\theta + \frac{1}{2}J''(\theta)(\Delta\theta)^2\)
其中：
- \(J'(\theta)\)：一阶导数（梯度的一维形式）；
- \(J''(\theta)\)：二阶导数（曲率信息）。

2. 多元函数（多参数）二阶泰勒展开

公式：
\(J(\boldsymbol{\theta} + \Delta\boldsymbol{\theta}) \approx J(\boldsymbol{\theta}) + \nabla J(\boldsymbol{\theta})^T \Delta\boldsymbol{\theta} + \frac{1}{2}\Delta\boldsymbol{\theta}^T \nabla^2 J(\boldsymbol{\theta}) \Delta\boldsymbol{\theta}\)
关键组件：
- \(\nabla J(\boldsymbol{\theta})\)：梯度向量（n维，\(n\)为参数个数），\(\nabla J(\boldsymbol{\theta}) = \left( \frac{\partial J}{\partial \theta_1}, \frac{\partial J}{\partial \theta_2}, ..., \frac{\partial J}{\partial \theta_n} \right)^T\)；
- \(\nabla^2 J(\boldsymbol{\theta})\)：海森矩阵（\(n \times n\)），元素为\((\nabla^2 J(\boldsymbol{\theta}))_{ij} = \frac{\partial^2 J}{\partial \theta_i \partial \theta_j}\)（描述函数曲率）。

2.2 极值的判定条件（最优性条件）

1. 必要条件（一阶最优性条件）

结论：若\(\boldsymbol{\theta}^*\)是局部极值点，则\(\nabla J(\boldsymbol{\theta}^*) = \boldsymbol{0}\)（梯度为零向量，称为“驻点”）；
AI应用：模型训练的终止条件之一（如\(\|\nabla J(\boldsymbol{\theta})\| < 10^{-6}\)），表示参数更新已无法显著降低损失。

2. 充分条件（二阶最优性条件）

结论：若\(\nabla J(\boldsymbol{\theta}^*) = \boldsymbol{0}\)且\(\nabla^2 J(\boldsymbol{\theta}^*)\)是正定矩阵（所有特征值\(>0\)），则\(\boldsymbol{\theta}^*\)是严格局部极小值点；
关键提醒：驻点可能是极小值点、极大值点或鞍点（海森矩阵特征值有正有负），AI中深度神经网络的损失函数存在大量鞍点，需通过优化算法规避。

2.3 梯度类优化算法（一阶优化）

依赖梯度（一阶信息）更新参数，计算成本低，适用于大规模参数场景（如深度学习）。

1. 批量梯度下降（BGD）

公式：
梯度计算（全量样本）：\(\nabla J(\boldsymbol{\theta}_t) = \frac{1}{N} \sum_{i=1}^N \nabla J_i(\boldsymbol{\theta}_t)\)（\(N\)为全量样本数，\(J_i\)为第\(i\)个样本的损失）；
参数更新：\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)；
特点：更新稳定（梯度无随机性），但计算量大（不适用于\(N>10^5\)的大数据集）；
AI场景：小样本机器学习模型（如小规模线性回归）。

2. 随机梯度下降（SGD）

公式：
梯度计算（单个随机样本）：\(\nabla J(\boldsymbol{\theta}_t) = \nabla J_i(\boldsymbol{\theta}_t)\)（\(i\)为随机选取的样本索引）；
参数更新：\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)；
特点：计算快（单样本梯度），但更新震荡剧烈（随机性可跳出局部最优）；
AI场景：大数据集初步训练（如ImageNet分类的初始迭代）。

3. 小批量梯度下降（Mini-batch GD）

公式：
梯度计算（小批量样本）：\(\nabla J(\boldsymbol{\theta}_t) = \frac{1}{B} \sum_{i \in \mathcal{B}} \nabla J_i(\boldsymbol{\theta}_t)\)（\(\mathcal{B}\)为随机选取的小批量，\(B\)常用32、64、128）；
参数更新：\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)；
特点：平衡BGD的稳定性和SGD的高效性，是AI中最常用的基础优化算法；
AI场景：CNN、Transformer、RNN等深度学习模型的核心训练算法。

4. 改进型梯度算法（解决SGD缺陷）

（1）动量梯度下降（Momentum）

核心思想：累积历史梯度的“惯性”，加速平缓方向更新，抑制震荡；
公式：
动量累积：\(v_t = \gamma v_{t-1} + \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)（\(\gamma\)为动量系数，常用0.9）；
参数更新：\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - v_t\)；
AI场景：CNN图像分类、RNN时序预测，解决SGD在鞍点附近的震荡问题。

（2）Adam优化器（Adaptive Moment Estimation）

核心优势：结合动量（一阶矩） 和自适应学习率（二阶矩），平衡收敛速度与稳定性；
公式：
一阶矩（梯度均值，动量）：\(m_t = \beta_1 m_{t-1} + (1-\beta_1) \nabla J(\boldsymbol{\theta}_t)\)；
二阶矩（梯度方差，自适应步长）：\(v_t = \beta_2 v_{t-1} + (1-\beta_2) [\nabla J(\boldsymbol{\theta}_t)]^2\)；
偏差修正（解决初始阶段矩估计偏置）：\(\hat{m}_t = \frac{m_t}{1-\beta_1^t}\)，\(\hat{v}_t = \frac{v_t}{1-\beta_2^t}\)；
参数更新：\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}\)；
其中：\(\beta_1=0.9\)，\(\beta_2=0.999\)（衰减系数），\(\epsilon=10^{-8}\)（防止除零），\(\alpha\)为初始学习率（常用\(10^{-3}\)）；
AI场景：BERT、ResNet、YOLO等大型模型，是当前工业界最流行的优化器。

2.4 牛顿类算法（二阶优化）

依赖梯度（一阶）和海森矩阵（二阶），收敛快但计算成本高，适用于小规模参数场景。

1. 牛顿法

公式：参数更新：\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - [\nabla^2 J(\boldsymbol{\theta}_t)]^{-1} \nabla J(\boldsymbol{\theta}_t)\)；
其中\([\nabla^2 J(\boldsymbol{\theta}_t)]^{-1}\)是海森矩阵的逆矩阵；
特点：二次收敛（比梯度下降快一个量级），但计算复杂度\(O(n^3)\)（\(n\)为参数维度）；
AI场景：逻辑回归、SVM（参数维度\(n<10^4\)），不适用于深度学习（\(n\)达百万级）。

2. 拟牛顿法（BFGS/L-BFGS）

核心思想：用梯度历史信息近似海森矩阵的逆（避免直接计算海森矩阵）；
代表算法：L-BFGS（限制内存版，仅存储近期梯度信息）；
AI场景：XGBoost/LightGBM的基学习器训练、强化学习的策略优化（小规模参数）。

3. 约束优化（Constrained Optimization）

AI中部分模型需在约束下优化（如SVM的间隔约束），核心是“将约束转化为无约束问题”。

3.1 拉格朗日乘数法（等式约束优化）

1. 问题形式

\(\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad h_j(\boldsymbol{\theta}) = 0 \quad (j=1,2,...,p)\)（仅等式约束）。

2. 拉格朗日函数

公式：\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}) = J(\boldsymbol{\theta}) + \sum_{j=1}^p \lambda_j h_j(\boldsymbol{\theta})\)；
其中\(\lambda_j\)为拉格朗日乘数（新的优化变量，与约束一一对应）。

3. 最优性条件

结论：原问题的最优解\(\boldsymbol{\theta}^*\)需满足：
\(\nabla_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}^*, \boldsymbol{\lambda}^*) = \boldsymbol{0}\) 且 \(\nabla_{\boldsymbol{\lambda}} \mathcal{L}(\boldsymbol{\theta}^*, \boldsymbol{\lambda}^*) = \boldsymbol{0}\)（即\(h_j(\boldsymbol{\theta}^*) = 0\)）；
AI场景：PCA的方差最大化约束、矩阵分解（MF）的秩约束。

3.2 拉格朗日对偶问题（不等式约束优化）

1. 原问题形式

\(\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad g_i(\boldsymbol{\theta}) \leq 0 \ (i=1,...,m), \ h_j(\boldsymbol{\theta}) = 0 \ (j=1,...,p)\)。

2. 拉格朗日函数与对偶函数

拉格朗日函数：
\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}, \boldsymbol{\mu}) = J(\boldsymbol{\theta}) + \sum_{i=1}^m \lambda_i g_i(\boldsymbol{\theta}) + \sum_{j=1}^p \mu_j h_j(\boldsymbol{\theta})\)；
其中\(\lambda_i \geq 0\)（不等式约束的乘数非负，保证约束方向），\(\mu_j\)为等式约束乘数。
对偶函数（原问题的下界函数）：\(D(\boldsymbol{\lambda}, \boldsymbol{\mu}) = \min_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}, \boldsymbol{\mu})\)；
对偶问题（最大化下界）：\(\max_{\boldsymbol{\lambda} \geq 0, \boldsymbol{\mu}} D(\boldsymbol{\lambda}, \boldsymbol{\mu})\)。

3. 强对偶性（AI核心结论）

条件：原问题是凸优化问题且满足“Slater条件”（存在\(\boldsymbol{\theta}\)使所有\(g_i(\boldsymbol{\theta}) < 0\)、\(h_j(\boldsymbol{\theta}) = 0\)）；
结论：原问题与对偶问题的最优值相等（\(J(\boldsymbol{\theta}^*) = D(\boldsymbol{\lambda}^*, \boldsymbol{\mu}^*)\)）；
AI应用：SVM通过对偶问题将“高维特征空间的分类”转化为“低维样本间的内积计算”，降低复杂度。

3.3 KKT条件（约束优化最优性充要条件）

适用场景：满足强对偶性的约束优化问题；
核心条件（\(\boldsymbol{\theta}^*\)为原问题最优解，\(\boldsymbol{\lambda}^*、\boldsymbol{\mu}^*\)为对偶问题最优解）：
1. 可行性：\(g_i(\boldsymbol{\theta}^*) \leq 0\)，\(h_j(\boldsymbol{\theta}^*) = 0\)（满足原约束）；
2. 互补松弛：\(\lambda_i^* g_i(\boldsymbol{\theta}^*) = 0\)（要么\(\lambda_i^* = 0\)（约束无效），要么\(g_i(\boldsymbol{\theta}^*) = 0\)（约束有效））；
3. 梯度条件：\(\nabla J(\boldsymbol{\theta}^*) + \sum_{i=1}^m \lambda_i^* \nabla g_i(\boldsymbol{\theta}^*) + \sum_{j=1}^p \mu_j^* \nabla h_j(\boldsymbol{\theta}^*) = \boldsymbol{0}\)；
4. 对偶可行性：\(\lambda_i^* \geq 0\)；
AI应用：SVM中，互补松弛条件表明“仅支持向量（\(g_i(\boldsymbol{\theta}^*) = 0\)）对模型有贡献”，解释了SVM的稀疏性。

4. 凸优化（Convex Optimization）

凸优化是“可信赖”的优化框架，核心优势是“局部最优即全局最优”，是经典机器学习模型的理论基础。

4.1 核心定义：凸集与凸函数

1. 凸集

定义：集合\(\mathcal{C} \subseteq \mathbb{R}^n\)是凸集，若对任意\(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \in \mathcal{C}\)和\(\alpha \in [0,1]\)，有：
\(\alpha \boldsymbol{\theta}_1 + (1 - \alpha) \boldsymbol{\theta}_2 \in \mathcal{C}\)；
常见凸集：\(\mathbb{R}^n\)（全空间）、超平面\(\{\boldsymbol{\theta} \mid \boldsymbol{a}^T \boldsymbol{\theta} = b\}\)、半空间\(\{\boldsymbol{\theta} \mid \boldsymbol{a}^T \boldsymbol{\theta} \leq b\}\)；
意义：保证优化过程中参数更新的“路径”始终在可行域内。

2. 凸函数

定义：函数\(J: \mathcal{C} \to \mathbb{R}\)（\(\mathcal{C}\)为凸集）是凸函数，若对任意\(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \in \mathcal{C}\)和\(\alpha \in [0,1]\)，有：
\(J(\alpha \boldsymbol{\theta}_1 + (1 - \alpha) \boldsymbol{\theta}_2) \leq \alpha J(\boldsymbol{\theta}_1) + (1 - \alpha) J(\boldsymbol{\theta}_2)\)；
严格凸函数：不等式严格成立（\(\alpha \in (0,1)\)），保证全局最优解唯一。

4.2 凸函数的判定条件

1. 一阶条件（可微凸函数）

公式：\(J(\boldsymbol{\theta}_2) \geq J(\boldsymbol{\theta}_1) + \nabla J(\boldsymbol{\theta}_1)^T (\boldsymbol{\theta}_2 - \boldsymbol{\theta}_1)\)；
意义：函数图像始终在任意点的切线之上，梯度下降的每一步更新都能降低损失。

2. 二阶条件（二阶可微凸函数）

结论：海森矩阵\(\nabla^2 J(\boldsymbol{\theta})\)对所有\(\boldsymbol{\theta} \in \mathcal{C}\)是半正定矩阵（特征值\(\geq 0\)）；若海森矩阵正定（特征值\(>0\)），则函数是严格凸函数。

3. AI中常见的凸函数

线性函数：\(J(\boldsymbol{\theta}) = \boldsymbol{a}^T \boldsymbol{\theta} + b\)（既是凸函数也是凹函数）；
二次函数：\(J(\boldsymbol{\theta}) = \frac{1}{2} \boldsymbol{\theta}^T A \boldsymbol{\theta} + \boldsymbol{b}^T \boldsymbol{\theta} + c\)（\(A\)半正定时为凸函数）；
逻辑回归损失：\(J(\boldsymbol{\theta}) = -\sum_{i=1}^N [y_i \log p_i + (1 - y_i) \log (1 - p_i)]\)（严格凸函数）；
L2正则项：\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_2^2\)（严格凸函数）。

4.3 凸优化的关键结论

凸函数的局部极小值是全局极小值；
凸优化问题的最优解集合是凸集（若存在多个最优解，其凸组合也是最优解）；
凸函数与仿射变换（如\(J(A\boldsymbol{\theta} + b)\)）的复合仍是凸函数；

AI意义：线性回归、逻辑回归、SVM等凸优化问题，无需担心陷入局部最优，可通过梯度下降快速求解。

5. 正则化与泛化优化（Regularization & Generalization）

AI优化的目标不仅是“最小化训练损失”，更要“最大化泛化能力”（对新数据的预测性能），正则化是核心手段。

5.1 正则化的本质

公式（带正则化的目标函数）：
\(\min_{\boldsymbol{\theta}} J_{reg}(\boldsymbol{\theta}) = J(\boldsymbol{\theta}) + \lambda R(\boldsymbol{\theta})\)；
组件含义：
- \(J(\boldsymbol{\theta})\)：经验损失（训练数据上的误差，如MSE、交叉熵）；
- \(R(\boldsymbol{\theta})\)：正则化项（惩罚参数复杂度，防止过拟合）；
- \(\lambda > 0\)：正则化强度（平衡经验损失与泛化能力，\(\lambda\)过大易欠拟合，过小易过拟合）。

5.2 常用正则化项及AI应用

1. L2正则化（岭回归/Ridge）

公式：\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_2^2 = \boldsymbol{\theta}^T \boldsymbol{\theta} = \sum_{i=1}^n \theta_i^2\)（L2范数的平方）；
带L2正则的线性回归损失：
\(J_{reg}(\boldsymbol{\theta}) = \frac{1}{2N} \sum_{i=1}^N (y_i - \boldsymbol{\theta}^T \boldsymbol{x}_i)^2 + \frac{\lambda}{2} \|\boldsymbol{\theta}\|_2^2\)；
作用：惩罚权重的平方和，使参数倾向于取较小值（“权重衰减”），降低模型复杂度；
AI场景：神经网络的权重衰减（Weight Decay）、岭回归、推荐系统的矩阵分解。

2. L1正则化（Lasso回归）

公式：\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_1 = \sum_{i=1}^n |\theta_i|\)（L1范数）；
带L1正则的线性回归损失：
\(J_{reg}(\boldsymbol{\theta}) = \frac{1}{2N} \sum_{i=1}^N (y_i - \boldsymbol{\theta}^T \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{\theta}\|_1\)；
作用：惩罚权重的绝对值和，倾向于使部分参数变为0（稀疏性），实现“特征选择”；
AI场景：Lasso回归（自动剔除无关特征）、压缩感知（图像重建）、NLP的词嵌入优化。

3. 弹性网（Elastic Net）

公式：\(R(\boldsymbol{\theta}) = \lambda_1 \|\boldsymbol{\theta}\|_1 + \lambda_2 \|\boldsymbol{\theta}\|_2^2\)（融合L1和L2正则）；
作用：兼顾L1的特征选择和L2的权重平滑，避免L1在多重共线性数据上的不稳定性；
AI场景：高维基因数据分类、推荐系统的高维用户/物品特征优化。

4. Dropout（深度学习专属正则化）

核心思想：训练时随机将部分神经元的输出置为0（概率\(p\)，常用0.5），测试时不置零但对输出乘以\((1-p)\)（保持期望一致）；
作用：防止模型过度依赖某几个神经元的特征，增强泛化能力；
AI场景：CNN图像分类、MLP多层感知机、Transformer的前馈网络。

6. 优化理论在AI中的典型应用

领域	模型/任务	优化类型	核心优化算法/工具	关键正则化手段
机器学习	线性回归	无约束凸优化	梯度下降/闭式解（\((X^T X)^{-1} X^T y\)）	L2正则（岭回归）
机器学习	逻辑回归	无约束凸优化	SGD/Adam	L1/L2正则
机器学习	SVM	约束凸优化	拉格朗日对偶+KKT条件	间隔约束（内置正则）
深度学习	CNN（图像分类）	无约束非凸优化	Mini-batch GD/Momentum	Dropout/L2正则
深度学习	Transformer（BERT/GPT）	无约束非凸优化	Adam	权重衰减/标签平滑
深度学习	GAN（生成对抗网络）	双人非零和博弈	交替训练（生成器：Adam；判别器：SGD）	梯度裁剪
推荐系统	矩阵分解（MF）	约束凸优化	拉格朗日乘数法	L2正则
强化学习	PPO（近端策略优化）	约束非凸优化	梯度下降（限制策略更新幅度）	策略裁剪

附录：优化理论核心符号总结（读音+使用场景）

符号	写法规范	读音	核心使用场景
\(\boldsymbol{\theta}\)	加粗希腊字母theta	“西塔”	优化变量（AI中为模型参数，如权重、偏置）
\(J(\boldsymbol{\theta})\)	大写J+参数theta	“J of 西塔”	目标函数（AI中为损失函数，如MSE、交叉熵）
\(\nabla J(\boldsymbol{\theta})\)	nabla+J(theta)	“nabla J of 西塔”	梯度向量（一阶导数，指导梯度下降的更新方向）
\(\nabla^2 J(\boldsymbol{\theta})\)	nabla平方+J(theta)	“nabla平方 J of 西塔”	海森矩阵（二阶导数矩阵，描述函数曲率，用于牛顿法）
\(\eta\)	希腊字母eta	“伊塔”	学习率（梯度下降中控制参数更新步长，常用\(10^{-3}\)、\(10^{-4}\)）
\(\lambda\)	希腊字母lambda	“拉姆达”	1. 正则化强度（控制正则化项权重）；2. 拉格朗日乘数（约束优化中的对偶变量）
\(\gamma\)	希腊字母gamma	“伽马”	动量系数（动量梯度下降中，常用0.9，累积历史梯度惯性）
\(\beta_1, \beta_2\)	希腊字母beta带下标	“贝塔1，贝塔2”	Adam优化器的衰减系数（默认0.9、0.999，控制一阶/二阶矩的累积速度）
\(\epsilon\)	希腊字母epsilon	“伊普西隆”	小常数（防止除零或数值不稳定，常用\(10^{-8}\)）
\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda})\)	花体L+参数	“拉格朗日函数”	拉格朗日函数（将约束优化转化为无约束优化）
\(\|\boldsymbol{\theta}\|_p\)	双竖线+下标p	“西塔的p范数”	范数（L1范数\(p=1\)用于特征选择，L2范数\(p=2\)用于权重衰减）
\(N\)	大写N	“N”	样本总数（批量梯度下降中全量样本数）
\(B\)	大写B	“B”	小批量样本数（Mini-batch GD中常用32、64、128）

posted on 2025-10-28 00:49 何苦-> 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

肤浅