人工智能十大数学知识 - 优化理论

人工智能中的优化理论核心知识(Optimization Theory for AI)

优化理论是AI模型训练的“引擎”,核心是通过数学方法找到使目标函数(如损失函数)达到极值的参数取值。从线性回归的闭式解到深度学习的Adam优化,所有模型训练本质都是求解优化问题。

1. 优化问题的基本框架(Basic Framework of Optimization)

所有优化问题的核心是:在参数的可行域内,找到使目标函数最小化(或最大化)的参数值。AI中以最小化损失函数为主(最大化问题可转化为最小化其负值)。

1.1 核心定义与通用形式

标准表示(最小化问题)

  • 公式\(\min_{\boldsymbol{\theta} \in \mathcal{D}} J(\boldsymbol{\theta})\)
    各组件含义:
    • \(\boldsymbol{\theta}\)优化变量——AI中即模型参数(如神经网络权重\(\boldsymbol{W}\)、偏置\(\boldsymbol{b}\)、线性回归系数);
    • \(\mathcal{D}\)可行域——参数的取值范围(如无约束时\(\mathcal{D}=\mathbb{R}^n\),有约束时\(\mathcal{D}\)由等式/不等式限制);
    • \(J(\boldsymbol{\theta})\)目标函数——AI中称为损失函数(如均方误差MSE、交叉熵),衡量模型预测与真实值的误差。

最大化问题转化

  • 公式\(\max_{\boldsymbol{\theta} \in \mathcal{D}} J(\boldsymbol{\theta}) = \min_{\boldsymbol{\theta} \in \mathcal{D}} \left[ -J(\boldsymbol{\theta}) \right]\)
    例:强化学习中“最大化累积奖励”可转化为“最小化负累积奖励”。

1.2 局部最优与全局最优解

  • 局部最优解:存在\(\epsilon>0\),对所有\(\boldsymbol{\theta} \in \mathcal{D} \cap \mathcal{N}(\boldsymbol{\theta}^*, \epsilon)\)\(\mathcal{N}\)\(\boldsymbol{\theta}^*\)\(\epsilon\)邻域),满足\(J(\boldsymbol{\theta}^*) \leq J(\boldsymbol{\theta})\)
  • 全局最优解:对所有\(\boldsymbol{\theta} \in \mathcal{D}\),满足\(J(\boldsymbol{\theta}^*) \leq J(\boldsymbol{\theta})\)

关键区别:AI中非凸问题(如深度神经网络)易陷入局部最优,而凸问题(如线性回归)可保证“局部最优即全局最优”。

1.3 优化问题的分类(按约束条件)

1. 无约束优化

  • 形式\(\mathcal{D}=\mathbb{R}^n\)(参数无取值限制);
  • AI场景:绝大多数深度学习模型(如CNN、Transformer)、线性回归、逻辑回归的训练;
  • 核心方法:梯度下降、Adam优化器等。

2. 约束优化

  • 标准形式

    \[\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad \begin{cases} g_i(\boldsymbol{\theta}) \leq 0 \quad (i=1,2,...,m) \quad \text{(不等式约束)} \\ h_j(\boldsymbol{\theta}) = 0 \quad (j=1,2,...,p) \quad \text{(等式约束)} \end{cases} \]

  • AI场景:SVM的最大间隔约束、生成模型的概率归一化约束、强化学习的策略更新幅度限制;
  • 核心方法:拉格朗日乘数法、KKT条件、对偶问题。

2. 无约束优化(Unconstrained Optimization)

无约束优化是AI最核心的场景,通过梯度信息迭代更新参数,核心工具是泰勒展开(近似目标函数局部形态)。

2.1 核心数学基础:泰勒展开

泰勒展开通过多项式近似目标函数,指导参数更新方向(一阶近似→梯度下降,二阶近似→牛顿法)。

1. 一元函数(单参数)二阶泰勒展开

  • 公式\(J(\theta + \Delta\theta) \approx J(\theta) + J'(\theta)\Delta\theta + \frac{1}{2}J''(\theta)(\Delta\theta)^2\)
    其中:
    • \(J'(\theta)\):一阶导数(梯度的一维形式);
    • \(J''(\theta)\):二阶导数(曲率信息)。

2. 多元函数(多参数)二阶泰勒展开

  • 公式
    \(J(\boldsymbol{\theta} + \Delta\boldsymbol{\theta}) \approx J(\boldsymbol{\theta}) + \nabla J(\boldsymbol{\theta})^T \Delta\boldsymbol{\theta} + \frac{1}{2}\Delta\boldsymbol{\theta}^T \nabla^2 J(\boldsymbol{\theta}) \Delta\boldsymbol{\theta}\)
    关键组件:
    • \(\nabla J(\boldsymbol{\theta})\)梯度向量(n维,\(n\)为参数个数),\(\nabla J(\boldsymbol{\theta}) = \left( \frac{\partial J}{\partial \theta_1}, \frac{\partial J}{\partial \theta_2}, ..., \frac{\partial J}{\partial \theta_n} \right)^T\)
    • \(\nabla^2 J(\boldsymbol{\theta})\)海森矩阵\(n \times n\)),元素为\((\nabla^2 J(\boldsymbol{\theta}))_{ij} = \frac{\partial^2 J}{\partial \theta_i \partial \theta_j}\)(描述函数曲率)。

2.2 极值的判定条件(最优性条件)

1. 必要条件(一阶最优性条件)

  • 结论:若\(\boldsymbol{\theta}^*\)是局部极值点,则\(\nabla J(\boldsymbol{\theta}^*) = \boldsymbol{0}\)(梯度为零向量,称为“驻点”);
  • AI应用:模型训练的终止条件之一(如\(\|\nabla J(\boldsymbol{\theta})\| < 10^{-6}\)),表示参数更新已无法显著降低损失。

2. 充分条件(二阶最优性条件)

  • 结论:若\(\nabla J(\boldsymbol{\theta}^*) = \boldsymbol{0}\)\(\nabla^2 J(\boldsymbol{\theta}^*)\)正定矩阵(所有特征值\(>0\)),则\(\boldsymbol{\theta}^*\)是严格局部极小值点;
  • 关键提醒:驻点可能是极小值点、极大值点或鞍点(海森矩阵特征值有正有负),AI中深度神经网络的损失函数存在大量鞍点,需通过优化算法规避。

2.3 梯度类优化算法(一阶优化)

依赖梯度(一阶信息)更新参数,计算成本低,适用于大规模参数场景(如深度学习)。

1. 批量梯度下降(BGD)

  • 公式
    梯度计算(全量样本):\(\nabla J(\boldsymbol{\theta}_t) = \frac{1}{N} \sum_{i=1}^N \nabla J_i(\boldsymbol{\theta}_t)\)\(N\)为全量样本数,\(J_i\)为第\(i\)个样本的损失);
    参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)
  • 特点:更新稳定(梯度无随机性),但计算量大(不适用于\(N>10^5\)的大数据集);
  • AI场景:小样本机器学习模型(如小规模线性回归)。

2. 随机梯度下降(SGD)

  • 公式
    梯度计算(单个随机样本):\(\nabla J(\boldsymbol{\theta}_t) = \nabla J_i(\boldsymbol{\theta}_t)\)\(i\)为随机选取的样本索引);
    参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)
  • 特点:计算快(单样本梯度),但更新震荡剧烈(随机性可跳出局部最优);
  • AI场景:大数据集初步训练(如ImageNet分类的初始迭代)。

3. 小批量梯度下降(Mini-batch GD)

  • 公式
    梯度计算(小批量样本):\(\nabla J(\boldsymbol{\theta}_t) = \frac{1}{B} \sum_{i \in \mathcal{B}} \nabla J_i(\boldsymbol{\theta}_t)\)\(\mathcal{B}\)为随机选取的小批量,\(B\)常用32、64、128);
    参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)
  • 特点:平衡BGD的稳定性和SGD的高效性,是AI中最常用的基础优化算法;
  • AI场景:CNN、Transformer、RNN等深度学习模型的核心训练算法。

4. 改进型梯度算法(解决SGD缺陷)

(1)动量梯度下降(Momentum)
  • 核心思想:累积历史梯度的“惯性”,加速平缓方向更新,抑制震荡;
  • 公式
    动量累积:\(v_t = \gamma v_{t-1} + \eta \cdot \nabla J(\boldsymbol{\theta}_t)\)\(\gamma\)为动量系数,常用0.9);
    参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - v_t\)
  • AI场景:CNN图像分类、RNN时序预测,解决SGD在鞍点附近的震荡问题。
(2)Adam优化器(Adaptive Moment Estimation)
  • 核心优势:结合动量(一阶矩)自适应学习率(二阶矩),平衡收敛速度与稳定性;
  • 公式
    一阶矩(梯度均值,动量):\(m_t = \beta_1 m_{t-1} + (1-\beta_1) \nabla J(\boldsymbol{\theta}_t)\)
    二阶矩(梯度方差,自适应步长):\(v_t = \beta_2 v_{t-1} + (1-\beta_2) [\nabla J(\boldsymbol{\theta}_t)]^2\)
    偏差修正(解决初始阶段矩估计偏置):\(\hat{m}_t = \frac{m_t}{1-\beta_1^t}\)\(\hat{v}_t = \frac{v_t}{1-\beta_2^t}\)
    参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}\)
    其中:\(\beta_1=0.9\)\(\beta_2=0.999\)(衰减系数),\(\epsilon=10^{-8}\)(防止除零),\(\alpha\)为初始学习率(常用\(10^{-3}\));
  • AI场景:BERT、ResNet、YOLO等大型模型,是当前工业界最流行的优化器。

2.4 牛顿类算法(二阶优化)

依赖梯度(一阶)和海森矩阵(二阶),收敛快但计算成本高,适用于小规模参数场景。

1. 牛顿法

  • 公式:参数更新:\(\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - [\nabla^2 J(\boldsymbol{\theta}_t)]^{-1} \nabla J(\boldsymbol{\theta}_t)\)
    其中\([\nabla^2 J(\boldsymbol{\theta}_t)]^{-1}\)是海森矩阵的逆矩阵;
  • 特点:二次收敛(比梯度下降快一个量级),但计算复杂度\(O(n^3)\)\(n\)为参数维度);
  • AI场景:逻辑回归、SVM(参数维度\(n<10^4\)),不适用于深度学习(\(n\)达百万级)。

2. 拟牛顿法(BFGS/L-BFGS)

  • 核心思想:用梯度历史信息近似海森矩阵的逆(避免直接计算海森矩阵);
  • 代表算法:L-BFGS(限制内存版,仅存储近期梯度信息);
  • AI场景:XGBoost/LightGBM的基学习器训练、强化学习的策略优化(小规模参数)。

3. 约束优化(Constrained Optimization)

AI中部分模型需在约束下优化(如SVM的间隔约束),核心是“将约束转化为无约束问题”。

3.1 拉格朗日乘数法(等式约束优化)

1. 问题形式

\(\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad h_j(\boldsymbol{\theta}) = 0 \quad (j=1,2,...,p)\)(仅等式约束)。

2. 拉格朗日函数

  • 公式\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}) = J(\boldsymbol{\theta}) + \sum_{j=1}^p \lambda_j h_j(\boldsymbol{\theta})\)
    其中\(\lambda_j\)拉格朗日乘数(新的优化变量,与约束一一对应)。

3. 最优性条件

  • 结论:原问题的最优解\(\boldsymbol{\theta}^*\)需满足:
    \(\nabla_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}^*, \boldsymbol{\lambda}^*) = \boldsymbol{0}\)\(\nabla_{\boldsymbol{\lambda}} \mathcal{L}(\boldsymbol{\theta}^*, \boldsymbol{\lambda}^*) = \boldsymbol{0}\)(即\(h_j(\boldsymbol{\theta}^*) = 0\));
  • AI场景:PCA的方差最大化约束、矩阵分解(MF)的秩约束。

3.2 拉格朗日对偶问题(不等式约束优化)

1. 原问题形式

\(\min_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \quad \text{s.t.} \quad g_i(\boldsymbol{\theta}) \leq 0 \ (i=1,...,m), \ h_j(\boldsymbol{\theta}) = 0 \ (j=1,...,p)\)

2. 拉格朗日函数与对偶函数

  • 拉格朗日函数
    \(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}, \boldsymbol{\mu}) = J(\boldsymbol{\theta}) + \sum_{i=1}^m \lambda_i g_i(\boldsymbol{\theta}) + \sum_{j=1}^p \mu_j h_j(\boldsymbol{\theta})\)
    其中\(\lambda_i \geq 0\)(不等式约束的乘数非负,保证约束方向),\(\mu_j\)为等式约束乘数。
  • 对偶函数(原问题的下界函数):\(D(\boldsymbol{\lambda}, \boldsymbol{\mu}) = \min_{\boldsymbol{\theta}} \mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda}, \boldsymbol{\mu})\)
  • 对偶问题(最大化下界):\(\max_{\boldsymbol{\lambda} \geq 0, \boldsymbol{\mu}} D(\boldsymbol{\lambda}, \boldsymbol{\mu})\)

3. 强对偶性(AI核心结论)

  • 条件:原问题是凸优化问题且满足“Slater条件”(存在\(\boldsymbol{\theta}\)使所有\(g_i(\boldsymbol{\theta}) < 0\)\(h_j(\boldsymbol{\theta}) = 0\));
  • 结论:原问题与对偶问题的最优值相等(\(J(\boldsymbol{\theta}^*) = D(\boldsymbol{\lambda}^*, \boldsymbol{\mu}^*)\));
  • AI应用:SVM通过对偶问题将“高维特征空间的分类”转化为“低维样本间的内积计算”,降低复杂度。

3.3 KKT条件(约束优化最优性充要条件)

  • 适用场景:满足强对偶性的约束优化问题;
  • 核心条件\(\boldsymbol{\theta}^*\)为原问题最优解,\(\boldsymbol{\lambda}^*、\boldsymbol{\mu}^*\)为对偶问题最优解):
    1. 可行性\(g_i(\boldsymbol{\theta}^*) \leq 0\)\(h_j(\boldsymbol{\theta}^*) = 0\)(满足原约束);
    2. 互补松弛\(\lambda_i^* g_i(\boldsymbol{\theta}^*) = 0\)(要么\(\lambda_i^* = 0\)(约束无效),要么\(g_i(\boldsymbol{\theta}^*) = 0\)(约束有效));
    3. 梯度条件\(\nabla J(\boldsymbol{\theta}^*) + \sum_{i=1}^m \lambda_i^* \nabla g_i(\boldsymbol{\theta}^*) + \sum_{j=1}^p \mu_j^* \nabla h_j(\boldsymbol{\theta}^*) = \boldsymbol{0}\)
    4. 对偶可行性\(\lambda_i^* \geq 0\)
  • AI应用:SVM中,互补松弛条件表明“仅支持向量(\(g_i(\boldsymbol{\theta}^*) = 0\))对模型有贡献”,解释了SVM的稀疏性。

4. 凸优化(Convex Optimization)

凸优化是“可信赖”的优化框架,核心优势是“局部最优即全局最优”,是经典机器学习模型的理论基础。

4.1 核心定义:凸集与凸函数

1. 凸集

  • 定义:集合\(\mathcal{C} \subseteq \mathbb{R}^n\)是凸集,若对任意\(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \in \mathcal{C}\)\(\alpha \in [0,1]\),有:
    \(\alpha \boldsymbol{\theta}_1 + (1 - \alpha) \boldsymbol{\theta}_2 \in \mathcal{C}\)
  • 常见凸集\(\mathbb{R}^n\)(全空间)、超平面\(\{\boldsymbol{\theta} \mid \boldsymbol{a}^T \boldsymbol{\theta} = b\}\)、半空间\(\{\boldsymbol{\theta} \mid \boldsymbol{a}^T \boldsymbol{\theta} \leq b\}\)
  • 意义:保证优化过程中参数更新的“路径”始终在可行域内。

2. 凸函数

  • 定义:函数\(J: \mathcal{C} \to \mathbb{R}\)\(\mathcal{C}\)为凸集)是凸函数,若对任意\(\boldsymbol{\theta}_1, \boldsymbol{\theta}_2 \in \mathcal{C}\)\(\alpha \in [0,1]\),有:
    \(J(\alpha \boldsymbol{\theta}_1 + (1 - \alpha) \boldsymbol{\theta}_2) \leq \alpha J(\boldsymbol{\theta}_1) + (1 - \alpha) J(\boldsymbol{\theta}_2)\)
  • 严格凸函数:不等式严格成立(\(\alpha \in (0,1)\)),保证全局最优解唯一。

4.2 凸函数的判定条件

1. 一阶条件(可微凸函数)

  • 公式\(J(\boldsymbol{\theta}_2) \geq J(\boldsymbol{\theta}_1) + \nabla J(\boldsymbol{\theta}_1)^T (\boldsymbol{\theta}_2 - \boldsymbol{\theta}_1)\)
  • 意义:函数图像始终在任意点的切线之上,梯度下降的每一步更新都能降低损失。

2. 二阶条件(二阶可微凸函数)

  • 结论:海森矩阵\(\nabla^2 J(\boldsymbol{\theta})\)对所有\(\boldsymbol{\theta} \in \mathcal{C}\)半正定矩阵(特征值\(\geq 0\));若海森矩阵正定(特征值\(>0\)),则函数是严格凸函数。

3. AI中常见的凸函数

  • 线性函数:\(J(\boldsymbol{\theta}) = \boldsymbol{a}^T \boldsymbol{\theta} + b\)(既是凸函数也是凹函数);
  • 二次函数:\(J(\boldsymbol{\theta}) = \frac{1}{2} \boldsymbol{\theta}^T A \boldsymbol{\theta} + \boldsymbol{b}^T \boldsymbol{\theta} + c\)\(A\)半正定时为凸函数);
  • 逻辑回归损失:\(J(\boldsymbol{\theta}) = -\sum_{i=1}^N [y_i \log p_i + (1 - y_i) \log (1 - p_i)]\)(严格凸函数);
  • L2正则项:\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_2^2\)(严格凸函数)。

4.3 凸优化的关键结论

  1. 凸函数的局部极小值是全局极小值;
  2. 凸优化问题的最优解集合是凸集(若存在多个最优解,其凸组合也是最优解);
  3. 凸函数与仿射变换(如\(J(A\boldsymbol{\theta} + b)\))的复合仍是凸函数;
  • AI意义:线性回归、逻辑回归、SVM等凸优化问题,无需担心陷入局部最优,可通过梯度下降快速求解。

5. 正则化与泛化优化(Regularization & Generalization)

AI优化的目标不仅是“最小化训练损失”,更要“最大化泛化能力”(对新数据的预测性能),正则化是核心手段。

5.1 正则化的本质

  • 公式(带正则化的目标函数):
    \(\min_{\boldsymbol{\theta}} J_{reg}(\boldsymbol{\theta}) = J(\boldsymbol{\theta}) + \lambda R(\boldsymbol{\theta})\)
    组件含义:
    • \(J(\boldsymbol{\theta})\)经验损失(训练数据上的误差,如MSE、交叉熵);
    • \(R(\boldsymbol{\theta})\)正则化项(惩罚参数复杂度,防止过拟合);
    • \(\lambda > 0\)正则化强度(平衡经验损失与泛化能力,\(\lambda\)过大易欠拟合,过小易过拟合)。

5.2 常用正则化项及AI应用

1. L2正则化(岭回归/Ridge)

  • 公式\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_2^2 = \boldsymbol{\theta}^T \boldsymbol{\theta} = \sum_{i=1}^n \theta_i^2\)(L2范数的平方);
  • 带L2正则的线性回归损失
    \(J_{reg}(\boldsymbol{\theta}) = \frac{1}{2N} \sum_{i=1}^N (y_i - \boldsymbol{\theta}^T \boldsymbol{x}_i)^2 + \frac{\lambda}{2} \|\boldsymbol{\theta}\|_2^2\)
  • 作用:惩罚权重的平方和,使参数倾向于取较小值(“权重衰减”),降低模型复杂度;
  • AI场景:神经网络的权重衰减(Weight Decay)、岭回归、推荐系统的矩阵分解。

2. L1正则化(Lasso回归)

  • 公式\(R(\boldsymbol{\theta}) = \|\boldsymbol{\theta}\|_1 = \sum_{i=1}^n |\theta_i|\)(L1范数);
  • 带L1正则的线性回归损失
    \(J_{reg}(\boldsymbol{\theta}) = \frac{1}{2N} \sum_{i=1}^N (y_i - \boldsymbol{\theta}^T \boldsymbol{x}_i)^2 + \lambda \|\boldsymbol{\theta}\|_1\)
  • 作用:惩罚权重的绝对值和,倾向于使部分参数变为0(稀疏性),实现“特征选择”;
  • AI场景:Lasso回归(自动剔除无关特征)、压缩感知(图像重建)、NLP的词嵌入优化。

3. 弹性网(Elastic Net)

  • 公式\(R(\boldsymbol{\theta}) = \lambda_1 \|\boldsymbol{\theta}\|_1 + \lambda_2 \|\boldsymbol{\theta}\|_2^2\)(融合L1和L2正则);
  • 作用:兼顾L1的特征选择和L2的权重平滑,避免L1在多重共线性数据上的不稳定性;
  • AI场景:高维基因数据分类、推荐系统的高维用户/物品特征优化。

4. Dropout(深度学习专属正则化)

  • 核心思想:训练时随机将部分神经元的输出置为0(概率\(p\),常用0.5),测试时不置零但对输出乘以\((1-p)\)(保持期望一致);
  • 作用:防止模型过度依赖某几个神经元的特征,增强泛化能力;
  • AI场景:CNN图像分类、MLP多层感知机、Transformer的前馈网络。

6. 优化理论在AI中的典型应用

领域 模型/任务 优化类型 核心优化算法/工具 关键正则化手段
机器学习 线性回归 无约束凸优化 梯度下降/闭式解(\((X^T X)^{-1} X^T y\) L2正则(岭回归)
机器学习 逻辑回归 无约束凸优化 SGD/Adam L1/L2正则
机器学习 SVM 约束凸优化 拉格朗日对偶+KKT条件 间隔约束(内置正则)
深度学习 CNN(图像分类) 无约束非凸优化 Mini-batch GD/Momentum Dropout/L2正则
深度学习 Transformer(BERT/GPT) 无约束非凸优化 Adam 权重衰减/标签平滑
深度学习 GAN(生成对抗网络) 双人非零和博弈 交替训练(生成器:Adam;判别器:SGD) 梯度裁剪
推荐系统 矩阵分解(MF) 约束凸优化 拉格朗日乘数法 L2正则
强化学习 PPO(近端策略优化) 约束非凸优化 梯度下降(限制策略更新幅度) 策略裁剪

附录:优化理论核心符号总结(读音+使用场景)

符号 写法规范 读音 核心使用场景
\(\boldsymbol{\theta}\) 加粗希腊字母theta “西塔” 优化变量(AI中为模型参数,如权重、偏置)
\(J(\boldsymbol{\theta})\) 大写J+参数theta “J of 西塔” 目标函数(AI中为损失函数,如MSE、交叉熵)
\(\nabla J(\boldsymbol{\theta})\) nabla+J(theta) “nabla J of 西塔” 梯度向量(一阶导数,指导梯度下降的更新方向)
\(\nabla^2 J(\boldsymbol{\theta})\) nabla平方+J(theta) “nabla平方 J of 西塔” 海森矩阵(二阶导数矩阵,描述函数曲率,用于牛顿法)
\(\eta\) 希腊字母eta “伊塔” 学习率(梯度下降中控制参数更新步长,常用\(10^{-3}\)\(10^{-4}\)
\(\lambda\) 希腊字母lambda “拉姆达” 1. 正则化强度(控制正则化项权重);2. 拉格朗日乘数(约束优化中的对偶变量)
\(\gamma\) 希腊字母gamma “伽马” 动量系数(动量梯度下降中,常用0.9,累积历史梯度惯性)
\(\beta_1, \beta_2\) 希腊字母beta带下标 “贝塔1,贝塔2” Adam优化器的衰减系数(默认0.9、0.999,控制一阶/二阶矩的累积速度)
\(\epsilon\) 希腊字母epsilon “伊普西隆” 小常数(防止除零或数值不稳定,常用\(10^{-8}\)
\(\mathcal{L}(\boldsymbol{\theta}, \boldsymbol{\lambda})\) 花体L+参数 “拉格朗日函数” 拉格朗日函数(将约束优化转化为无约束优化)
\(|\boldsymbol{\theta}|_p\) 双竖线+下标p “西塔的p范数” 范数(L1范数\(p=1\)用于特征选择,L2范数\(p=2\)用于权重衰减)
\(N\) 大写N “N” 样本总数(批量梯度下降中全量样本数)
\(B\) 大写B “B” 小批量样本数(Mini-batch GD中常用32、64、128)

posted on 2025-10-28 00:49  何苦->  阅读(0)  评论(0)    收藏  举报

导航