统计学习-拉格朗日对偶性
微积分中最常见的问题之一是求一个函数的极大极小值(极值)。但是很多时候找到极值函数的显式表达是很困难的,特别是当函数有先决条件或约束时。拉格朗日乘数则提供了一个非常便利方法来解决这类问题,而避开显式地引入约束和求解外部变量。
凸集(convex set)是一個點集合,其中每兩點之間的直线點都落在該點集合中。
凸函数是一个定义在某个向量空间的凸子集\(C\)(区间)上的实值函数 \(f\),如果在其定义域 \(C\)上的任意两点\(x, y\)以及$ t\in [0,1]$,有
\begin{align} f(tx+(1-t)y)\leq tf(x)+(1-t)f(y) \end{align} 也就是说,一个函数是凸的当且仅当其上境图(在函数图像上方的点集)为一个凸集。
在一个实数向量空間 \(V\)中,对于给定集合\(X\),所有包含\(X\)的凸集的交集 \(S\)被称为\(X\)的凸包。
\begin{align} S:=\bigcap _{X\subseteq K\subseteq V \atop K\ \mathrm {is\ convex} }K\end{align}
拉格朗日对偶问题属于凸优化中的一种
1. 原始问题
假设\(f(x0, c_i(x), h_j(x)\)是定义在\(\mathbf{R}^n\)上的连续可微函数. 约束优化问题 \begin{align} \min_{x \in \mathbf{R}^n} & \qquad f(x) \\ \text{s.t.} & \qquad c_i(x) \leqslant 0, \qquad i = 1, 2, \cdots, k \\ & \qquad h_j(x) = 0, \qquad j = 1, 2, \cdots, l \end{align} 称为原始问题.
引入广义拉格朗日函数 \begin{align} L(x, \alpha, \beta) = f(x) + \sum_{i=1}^k \alpha_i c_i(x) + \sum_{j=1}^l \beta_j h_j(x) \end{align} 则原始问题与问题 \begin{align} p^* = \min_{x} \theta_P(x) = \max_{\alpha,\beta;\alpha_i\geqslant 0} L(x,\alpha,\beta) \end{align} 等价, \(p^*\)为原始问题的解, 转换成了无约束问题.
2. 对偶问题
定义 \begin{align} \theta_D(\alpha, \beta) = \min_x L(x, \alpha, \beta) \end{align} 考虑针对\(x\)极大\(\theta_D\), 即 \begin{align} \max_{\alpha, \beta; \alpha \geqslant 0} \theta_D(\alpha, \beta) = \max_{\alpha, \beta; \alpha \geqslant 0} \min_x L(x, \alpha, \beta) \end{align} 可以看成是一个约束最优化问题, 描述为 \begin{align} \max_{\alpha, \beta; \alpha \geqslant 0} \theta_D(\alpha, \beta) = \max_{\alpha, \beta; \alpha \geqslant 0} \min_x L(x, \alpha, \beta) \\ \text{s.t.} \qquad \alpha_i \geqslant 0 \qquad i=1,2,\cdots,k \end{align}称为原始问题的对偶问题.
3. 原始问题与对偶问题的关联
1. 若原始问题和对偶问题都有最优值, 则 \begin{align} d* = \max_{\alpha, \beta; \alpha \geqslant 0} \min_x L(x, \alpha, \beta) \leqslant \min_x \max_{\alpha, \beta; \alpha \geqslant 0} L(x, \alpha, \beta) = p^* \end{align}
2. 设\(x^*, \alpha^*, \beta^*\)分别是原始问题和对偶问题的可行解, 并且\(d^*=p^*\), 则其分别为原始问题和对偶问题的最优解
3. 如果函数\(f(x), c_i(x)\)均为凸函数, \(h_j(x)\)是仿射函数, 并且约束\(c_i(x)\)是严格可行的(存在\(x\), 对所有\(i\)有\(c_i(x) <0\)), 则存在\(x^*, \alpha^*, \beta^*\)是原始问题和对偶问题的解, 并且\(p^*=d^*=L(x^*, \alpha^*, \beta^*)\)
4. 在满足3的条件下, \(x^*, \alpha^*, \beta^*\)是解的充要条件是其满足KKT条件:
\begin{align}
\nabla_x L(x^*, \alpha^*, \beta^*)&=0 \\
\nabla_x L(x^*, \alpha^*, \beta^*)&=0 \\
\nabla_x L(x^*, \alpha^*, \beta^*)&=0
\end{align}
\begin{align}
\alpha_i^* c_i(x^*) &= 0, \qquad i = 1, 2, \cdots, k \label{eq:kkt} \\
c_i(x^*) &\leqslant 0, \qquad i = 1, 2, \cdots, k \\
\alpha_i^* &\geqslant 0, \qquad i = 1, 2, \cdots, k \\
h_j(x^*) &= 0, \qquad j = 1, 2, \cdots, l
\end{align}
其中\eqref{eq:kkt} 称为KKT的对偶互补条件, 这是一个强关系, 如果某一\(\alpha_i^* \neq 0\), 则\(c_i(x^*) = 0\).

浙公网安备 33010602011771号