最优化理论
第一章:凸优化基础概念笔记
一、凸集
1.1 核心概念
- 直观定义:集合中任意两点的连线仍完全包含于该集合。无“凹陷”。
- 形式定义:集合 \(C\) 是凸的,当且仅当 \(\forall \mathbf{x}_1, \mathbf{x}_2 \in C, \theta \in [0,1]\),有 \(\theta \mathbf{x}_1 + (1-\theta)\mathbf{x}_2 \in C\)。
1.2 重要例子
- 超平面 \({ \mathbf{x} \mid \mathbf{a}^T \mathbf{x} = b }\)
- 半空间 \({ \mathbf{x} \mid \mathbf{a}^T \mathbf{x} \leq b }\)
- 球体、多面体(线性不等式组的解集)、凸集的交集。
1.3 超平面是凸集的证明
证明:设 \(H = { \mathbf{x} \mid \mathbf{a}^T \mathbf{x} = b }\)。任取 \(\mathbf{x}_1, \mathbf{x}_2 \in H\),即 \(\mathbf{a}^T \mathbf{x}_1 = b, \mathbf{a}^T \mathbf{x}_2 = b\)。考虑其凸组合 \(\mathbf{z} = \theta \mathbf{x}_1 + (1-\theta)\mathbf{x}_2\),计算:
\[\mathbf{a}^T \mathbf{z} = \theta (\mathbf{a}^T \mathbf{x}_1) + (1-\theta) (\mathbf{a}^T \mathbf{x}_2) = \theta b + (1-\theta) b = b
\]
故 \(\mathbf{z} \in H\),满足凸集定义。证毕。
二、极点与极方向
2.1 极点
- 直观:凸集的“角点”或“顶点”,不能表示为集合内两个不同点的凸组合。
- 形式定义:点 \(\mathbf{x} \in C\) 是极点,若 \(\mathbf{x} = \theta \mathbf{y} + (1-\theta)\mathbf{z}\)(其中 \(\mathbf{y}, \mathbf{z} \in C, 0<\theta<1\))必然推出 \(\mathbf{y} = \mathbf{z} = \mathbf{x}\)。
- 例子:多边形的顶点;圆周上的点都是整个圆盘的极点。
2.2 极方向
- 直观:描述无界凸集“无限延伸”的基本方向,不能表示为其他不同方向的正组合。
- 形式定义:非零向量 \(\mathbf{d}\) 是 \(C\) 的方向,若 \(\forall \mathbf{x} \in C, \lambda \geq 0\),有 \(\mathbf{x} + \lambda \mathbf{d} \in C\)。它是极方向,若不能表示为两个不同方向的正组合。
- 意义:与极点共同描述无界凸集的结构。
三、表示定理
- 核心思想(Minkowski-Weyl定理):任何闭凸集(特别是多面体)可表示为“有界部分”和“无界部分”的和。
- 定理形式:多面体 \(P = { \mathbf{x} \mid A\mathbf{x} \leq \mathbf{b} }\) 可表示为:\[P = \text{conv}\{\mathbf{v}_1, \dots, \mathbf{v}_k\} + \text{cone}\{\mathbf{d}_1, \dots, \mathbf{d}_l\} \]其中 \(\mathbf{v}_i\) 是极点,\(\mathbf{d}_j\) 是极方向。
- 重要性:建立了多面体的两种等价表示(H-表示:不等式;V-表示:点与方向),是单纯形法等算法的理论基础。
四、超平面分离定理
4.1 基本定理
- 两个不相交的凸集 \(C\) 和 \(D\),必存在一个超平面将它们分离,即存在非零向量 \(\mathbf{a}\) 和标量 \(b\),使得:\[\forall \mathbf{x} \in C, \mathbf{a}^T \mathbf{x} \leq b \quad \text{且} \quad \forall \mathbf{y} \in D, \mathbf{a}^T \mathbf{y} \geq b \]
4.2 证明思路
- 构造集合差 \(S = C - D = {\mathbf{x} - \mathbf{y} \mid \mathbf{x} \in C, \mathbf{y} \in D}\),其为凸集且不包含原点。
- 在 \(S\) 中找离原点最近的点 \(\mathbf{s}_0\),利用向量内积证明超平面 \({\mathbf{x} \mid \mathbf{s}_0^T \mathbf{x} = \frac{1}{2} |\mathbf{s}_0|^2}\) 分离了原点与 \(S\)。
- 将此分离关系翻译回原集合 \(C\) 和 \(D\),得到分离它们的超平面。
4.3 强分离
- 若 \(C\) 是紧集,\(D\) 是闭集,且 \(C \cap D = \emptyset\),则可实现强分离,即存在 \(\epsilon > 0\) 使得两个集合与超平面之间有间隙。
五、与支持向量机的联系
- 基本思想:SVM 是超平面分离定理的直接应用和优化。
- 从分离到最大间隔:分离定理保证了线性可分超平面的存在性;SVM 进一步寻找间隔最大的超平面,以提升泛化能力。
- 数学化:
- 决策超平面:\(\mathbf{w}^T \mathbf{x} + b = 0\)。
- 间隔:\(\frac{2}{|\mathbf{w}|}\)。
- SVM优化问题:\(\min_{\mathbf{w}, b} \frac{1}{2} |\mathbf{w}|^2\),约束条件为 \(y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1\)。最大化间隔等价于最小化 \(|\mathbf{w}|^2\)。
- 扩展:通过引入松弛变量(软间隔)和核技巧(非线性映射),SVM 将分离定理的思想推广至更复杂的现实问题。
六、凸函数
6.1 核心概念
- 直观:图像像“碗”,弦在图像之上。
- 定义(Jensen不等式):函数 \(f\)(定义域为凸集)是凸的,当且仅当:\[f(\theta \mathbf{x} + (1-\theta)\mathbf{y}) \leq \theta f(\mathbf{x}) + (1-\theta) f(\mathbf{y}), \quad \forall \mathbf{x}, \mathbf{y} \in \text{dom} f, \theta \in [0,1] \]
6.2 微分条件
- 一阶条件(可微):\(f\) 是凸的 \(\Leftrightarrow\) \(f(\mathbf{y}) \geq f(\mathbf{x}) + \nabla f(\mathbf{x})^T (\mathbf{y}-\mathbf{x})\)。几何意义:图像在切线之上。
- 二阶条件(二阶可微):\(f\) 是凸的 \(\Leftrightarrow\) Hessian 矩阵 \(\nabla^2 f(\mathbf{x})\) 半正定(\(\succeq 0\))。一维情形:\(f''(x) \geq 0\)。
6.3 重要例子
线性函数、二次函数(当二次型矩阵半正定时)、指数函数、负对数、范数、最大值函数。
七、凸函数的性质
-
集合相关性质:
- 下水平集是凸集:\(C_\alpha = {\mathbf{x} \mid f(\mathbf{x}) \leq \alpha}\) 是凸集。这是凸优化问题可行域为凸集的关键。
- 上图是凸集:\(\text{epi} f = {(\mathbf{x}, t) \mid t \geq f(\mathbf{x})}\) 是凸集 \(\Leftrightarrow\) \(f\) 是凸函数。
-
运算保持凸性(构造工具):
- 非负加权和:凸函数的非负线性组合仍是凸函数。
- 仿射变换复合:\(f(A\mathbf{x} + b)\) 是凸的。
- 逐点取最大值/上确界:一族凸函数的逐点最大值是凸函数。
- 部分变量最小化:在一定条件下,对部分变量求最小保持凸性。
-
最优性性质(凸优化的核心优势):
- 局部极小即全局极小:任何局部最小值点都是全局最小值点。
- 最优解集是凸集:全局最小值点的集合是一个凸集。
本章总结:本章建立了凸优化理论的基石。从凸集的几何结构出发,通过极点和极方向揭示了其内部构成,并由表示定理统一描述。超平面分离定理奠定了最优性理论和SVM等算法的基础。最后,凸函数及其优良的性质(特别是局部最优即全局最优)解释了为何凸优化问题在理论和计算上如此“友好”,成为广泛应用的可能。
浙公网安备 33010602011771号